人类在进行交流时运用的最多、最基本、也最重要的信息载体便是语音。在高度信息化的今天,一系列语音处理技术及其应用已经成为信息社会必不可少的重要组成部分[1]。
语音的产生包括心理和生理等方面的一系列动作,是一个复杂的过程。当人们需要通过语音来表达某种信息时,这种信息首先会通过某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,最后这些神经信号再作用于发声器官,从而产生携带信息的语音信号[3]。64614
当前,在对语音信号进行研究时一般都是基于其数字表示,语音信号的数字表示是对语音信号进行数字处理的基础。语音信号数字化的理论依据是我们熟知的采样定理可以用时域上周期采取的样点来表示一个个的带限信号(当采样频率足够高时)。语音信号的离散表示包括两类:波形表示和参数表示。把语音信号表示成某种语音产生模型的参数的是参数表示,而则仅是借助采样和量化的过程保存模拟语音信号的“波形”属于波形表示(也就是本文要研究的对象)[1]。论文网
一直以来鉴于语音的特殊用途,人们都特别重视对语音通信和语音信号的研究。随着社会的发展,人们对于数码率和语音质量都有了更高的要求,进而推动了语音编码技术方面的发展。而计算机科学和自动控制的发展也要求通过语音实现人与机器的信息交流,这要求机器不仅能听懂人说话还能模仿人说话,甚至还要能辨别出说话人是谁,这又推动了语音合成技术和语音识别的研究,推动语音处理技术迅速发展;语音识别、语音编码、语音合成、说话人识别等技术的基础都是对 语音信号特征的认识,都需要用一些数字信号处理的基本技术来分析处理语音信号,而更深层次的发展会涉及到其他领域,例如人的发音和听觉机理,还会涉及语言学、生理学甚至心理学关联[1]。
实际上语音信号的处理研究仍具有巨大的潜力,尽管它已经拥有几十年的历史,成果也有很多,但还是面临了很多理论和方法的问题。例如,在语音识别方面,分割连续语音、识别大词汇量语音以及识别任何人的语音等方面日前尚没有十分理想的办法;在语音编码技术方面,是否能在极低速率或甚低速率下取得满意的语音质量;在语音理解方面,对语义信息的定性描述和定量估计等,都还没有统一准确的计算方法。这些问题都是语音处理领域今后研究的重要方向[1,2,3]。