总 结 18
致 谢 19
参考文献 20
1 绪论
1.1 研究背景及意义
情感信息处理已成为提高人机交互能力的一个重要研究课题,随着信息技术的高速发展,人类对计算机的依赖性的不断增强。如何实现计算机的拟人化,使其能感知周围的环境和氛围以及说话者的态度和情感等内容,良好地实现人机交互,成为计算机发展的重要目标。
关于情感语音的研究虽然涉及很多方面,但其最终目的无非有两个:其一是让计算机能够合成出更加真实自然的带有情感的语音,即情感语音合成:其二是让计算机能够通过语音信号识别说话者的情感状态,即语音情感识别。
语音情感识别,即通过分析人类语音对应于情感的变化规律,利用计算机从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。是目前信号处理及模式识别领域的一个新的研究热点,其主要潜在应用是计算机拟人化,使得使用者在和谐自然的交互模式下高效完成任务,在信息查询系统、计算机辅助教学,电子商务领域,娱乐游戏,虚拟人物对话等领域有着重要意义。
1.2 语音情感发展识别现状[1]
语音情感识别是建立在对语音信号的产生机制深入分析的基础上,对语音中反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别方法确定语音情感状态的技术。
语音信号的情感处理涉及到不同语种间的差异,发展也不尽相同。英语、西班牙语、日语和德语的语音情感分析处理有较多的研究,而汉语的情感分析与处理还处于初级阶段。
目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型,以及深层次的自然语音的理解。研究的方向也越来越侧重于口语对话系统。
1.2.1 情感的定义及分类
什么是情感,这是一个复杂的问题,虽然心理学家对情感的机理进行了大量的研究,但是到目前为止还没有一个情感理论得到广泛的认同。因此对于情感的定义只能在有限的范围内取得一致。大多数场合,不同人之间确实存在着一些确定的、具有一致性的情感表现。
情感的分类,不同学者有不同的分类方法。文献[2],作者利用四象限来定义情感空间,主要情感分为:愤怒、高兴、悲伤和中性。文献[3]在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。通过向四周不同方向扩展,表现为不同的情感。即所谓的“情感轮”方法。文献[4]则提出了分级情感模型。等级越低,分类越粗糙,等级越高,分类越精细。
但过细的情感分类,其情感特征愈加模糊,识别率往往大大降低,因此反而不利于情感识别。所以通常的情感识别中,多采用4-6中情感分类。
1.2.2 声学基础
这里主要给出语音信号几个不常见的特征的定义。
基音:一个复合音是由多个频率不同的纯音组成的,通过一定的方法可以把复合音分解为一定数目的纯音,这些被分解出来的纯音在物理上被称为“分音”。其中,那个振幅最大、频率最低的分音,称为基音。
频谱图:任何一个声音都可以分解为一个或者多个纯音来,这个分解过程就称为频谱分析。将分解出来的每个纯音分频率和振幅两个维度做在一张图上,纵轴表示振幅,横轴表示频率,即得频谱图。