说话人识别特征的选取:
在说话人识别系统中特征提取是很重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征,虽然哪些参数能较好地反映说话人个人特征,现在还没有完全搞清楚 但一般都包含两个方面,即生成语音的发音器的差异和发音器官发音时动作的差异,前者主要表现语音的频率结构上,主要包含了反映声道共振与反共振特性的频谱包络特征信息和反映声带震动等音源特性的频谱细节构造特征信息,代表性的特征参数有倒谱和基音参数,后者的发音习惯差异主要表现在语音的频谱结构是时间变化上,主要包含了特征参数的动态特性,代表性的特性参数是倒谱和基音的线形回归系数,即差值倒谱和差值基音参数。在说话人识别中,频谱包络特性特别是倒谱用的比较多,这是因为一些实验已经证明,用倒谱特征可以得到比较好的识别性能,而且稳定的倒谱比较容易提取。和倒谱相比,基音特征只存在于浊音部分,而且准确稳定的基音特征比较难提取。
一般来说,人能从声音的音色、频高、能量的大小等各种信息中知觉说话人的个性特征。所以可以想象,如果利用复数特征的有效组合,可以得到比较稳定的识别性能[2][8]。
根据以上的分析,概括起来就是,在理想的情况下,选取的特征应满足下述准则:
(1)能够有效的区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定;
(2)易于从语音信号中提取;
(3)不易被模仿;
(4)尽量不随时间和空间变化。
一般来说,同时满足上述全部要求的特征通常是不可能找到的,只能使用折中方案。多年来,各国的研究者对于各种特征参数在说话人识别中的有效性进行了大量的研究,并且得到了许多有意义的结论,如果把说话人识别中常用的参数加以简要归纳,则大致可以分为以下几类:
1. 线形预测参数及其派生参数
通过对线形预测参数进行正交变换得到的参量,其中阶数较高的几个方差小,这说明它们实质上与语句的内容相关性小,从而反映了说话人的信息。另外,由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与文本无关的说话人识别。由于它推导出多种参数,例如部分相关系数、声道面积比函数、线形对系数以及LPC倒谱系数,都是可以应用的,目前,LPC倒谱系数和差值倒谱系数是最常用的短时谱参数,并获得了较好的识别效果。文献综述
2. 语音频谱直接导出的参数
语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差异。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由语音短时谱中导出参数可以有效的用于说话人识别中。已经使用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。现已证实基音周期及其派生参数携带有较多的个人信息。但基音容易被模仿,且不稳定,最好于其他参数组合使用[2][7][9]。
2.2 说话人识别的方法
随着计算机和数字信号处理、人工智能等不断地发展,人们尝试了多种说话
人识别方法,使说话入识别率逐步提高。说话人模型已从单一地模板模型向矢量
量化(VQ-vactor Quantization)模型、高斯混合模型(GMM-gaussian mixture model)、隐马尔可夫模型(Hidden Markov Model,HMM)、人工种经网络(artificial neural network,缩写ANN)模型以及它们的混合模型多方向发展,对说话人个性特征的描述也越来越精细和完善。说话人识别的主要方法可以分为三类:非参数模型方法、参数模型方法和人工神经网络方法。