MPDM复杂环境下汉语普通话双基频检测

菜单

摘要汉语是一种声调语言。声调的变化体现在基音频率的变化，基音频率随时间变化的轨迹曲线称为声调曲线。目前，对一人单独发音的汉语普通话基频检测已经有了很成熟的方法，例如倒谱法、小波法、自相关法，等等。但是，在实际语言环境下，往往是多人同时发音的情境，所发出的语音就包含多个声调曲线。因此，如何检测出多个语音混合的声调曲线，在语音识别领域具有十分重要的应用价值。本论文利用汉语基频的一些特点提出了MPDM的双基频检测方法。对于汉语四种声调的各种组合，在纯净与加噪两种情形下，分别进行了系统的分析和探讨，得到了显著的效果。67259

毕业论文关键词声调基频 MPDM 加噪

毕业设计说明书（论文）外文摘要

Title Multi-pitch Detection in Chinese

Abstract

Chinese is a language with varying tones that reflect on the temporal variation of pitches mostly，called the tonal contours. There are several methods to detect the pitch of a signal that originates from a single speaker. These include the AMDF，ACF，cepstrum，and the Wavelet-based methods，etc. Nevertheless，a speech signal usually involves voices speaking out of two or more persons at the same time，and then，it may contain multiple pitches. Detection of multi-pitches is very important for applications like speech recognition. Here we present a method called MPDM for detection of pitches of two-speaker speech. The application to speech signals which are combinations of four tones in Chinese shows the success of the proposed method in detecting double-pitches，even in highly noisy background.

Keywords tone pitch MPDM noisy speech

1 引言 1

2 基音周期估计 3

2.1 基于短时自相关函数的基音周期估计 4

2.2 基于短时平均幅度差函数（AMDF）的基音周期估计 5

3 MPDM 5

3.1 MPDM（Multi-pitch Detection of Mandarin）方法简介 5

3.2 干净环境下汉语双基频检测 9

3.3 加噪环境下汉语双基频检测 21

结论 29

致谢 30

参考文献 31

1 引言

语言是人们之间沟通交流的最直接的手段，而实现计算机与人之间的语音交流，是人类一直不懈追求的一个梦想。语音识别是实现这一梦想的关键性技术[1]。语音识别的实现是建立在对语音特性的分析基础之上的。汉语有三要素：声母、韵母和声调。相同声母和韵母构成的音节随声调的不同而具有完全不同的意义，对应着不同的汉字。汉语又是一种声调语言。所以，在汉语的相互交谈中，不但要凭借不同的元音、辅音来辨别这些字或词的意义，还需要从不同的声调来区别它，也就是说声调有辨义作用。如果不考虑声调，汉语的1300多个带调的音节锐减至400多个无调音节[4]！可见，实现汉语普通话的声调识别，关键在于实现汉语语音基音的检测。此外，汉语中还存在着一字多音现象。同一个字在不同的语气或不同的词义下具有不同的声调。可见，声调对汉语语音的理解极为重要，承担着重要的构字辨义作用，而在其他很多语种中声调则没有这样重要的作用。在当代汉语语音技术中，汉语的声调识别是语音识别的至关重要的环节。