5.1总结33
5.2展望33
致谢35
参考文献.37
第一章 绪论
1.1 双耳声源定位技术的研究背景和意义 语音是当今人类获取信息的必要手段之一。它由人类的发声系统产生并通过开放空间中的空气振动传播。这种振动能被人耳或者麦克风接收,随后通过电子传感器或神经系统转换为语音信号[1]。从数字通讯开始,多种技术譬如语音分离、辨识、合成等都相继高速发展,可见,语音信号处理技术已经变成未来发展的重要方向。 如今人与计算机交流日益增多,双耳声源定位技术在语音通讯领域中的重要性不言而喻。譬如,在视频聊天中,摄像头可以通过声源定位来改变方向;有声源定位技术的助听器为听觉障碍的人提供了很大的帮助;智能家居能通过声源定位技术来提升自身与环境的交互能力。 另外, 语音分离是一类特殊的语音增强算法, 其在语音的通信、 说话人目标的检测、语音信号的增强等方面有着重要的理论研究价值和意义。人们在日常生活中同一时刻听到的通常都不止一个声音,然而,我们却可以很自然的通过自身的听觉系统从各种不同的声源中分辨出自己感兴趣的声音。人耳听觉系统在实际嘈杂的环境下感知能力是非常强的,Bregman 结合心理和生理声学研究[2],研究了人耳听觉的感知特点,指出人耳听觉感知过程可以分为两个部分:第一,声学信号的切分(segmentation)过程,第二,属于同一声学目标的感知成分的组合(grouping)过程,从而形成不同声源连贯的数据流(coherentstream) 。也就是说,混合声信号中属于同一声源的分量组织到一个数据流中,从而得到不同声源的数据流,使得人耳的听觉系统可以区分不同的声源。曾有科学家提出“鸡尾酒会效应”[3],在嘈杂的鸡尾酒会上,人们通过自己的听觉系统可以很容易的听到对面谈话人说的话,这也说明了自然界存在这样的语音信号处理机制,本文将采用计算机听觉场景分析来模拟人耳对声音的感知特点。
1.2 声源定位技术的研究现状 听觉研究表明,声源定位与语音分离具有相互促进的作用。本文研究一种声源定位与语音分离结合的方法。目前双耳的声源定位研究主要实现的是水平面上方位角的估计,语音分离从声源个数与麦克风个数的关系方面可以划分为三种情况:欠定语音分离、正定语音分离和过定语音分离。欠定语音分离是指麦克风个数少于声源个数;正定语音分离是指麦克风个数等于声源个数;过定语音分离是指麦克风个数多于声源个数[4]。后两种情况可以由传统的独立成分分析 ICA(Independent Component Analysis)得到解决。Comon 在 1994 年首先提出了独立成分分析的概念。后来在 1999 年,Hyvarinen 从负熵的概念出发推出了一个新的独立成分分析算法[5],并且引入了定点算法,具有更加快捷的运算速度。本文主要研究的是第一种情况即欠定语音的定位与分离问题。 随着语音信号处理技术的飞速发展,计算听觉场景分析成为一个重要的语音分离技术, 它通过模仿人耳对声源的处理方式来解决语音分离问题[6]。 相对于其他的分离方法,计算听觉场景分析对噪音没有任何假设[7],有更好的分离性能。然而,计算听觉场景分析是基于语音基音的检测,在有噪音的情况下,其检测相对较困难[8][9]。 声源定位是目前一个重要的研究领域,十几年来,一直受到国内外研究者的重视。近些年来,以机器学习为主体的语音信号处理方法逐渐得到关注。一些引入了机器学习技术的语音信号处理方法相比于传统的方法显著提高了系统的性能。