Audry系统,是第一个能识别英文数字的系统,它于1952年,在AT&bell实验室被Davis等人研发出。在后来的研究中,伴随计算机的发展,取得了突破。即动态规划和先行预测分析。随后,线性预测编码及动态规划被应用于语音识别;与此同时,矢量量化(VQ)理论的提出,包括随后的隐马尔可夫模型(hmm)的建立,为这之后的非特定人员大词汇量连续语音识别技术的进步发挥了重要作用。到了八九十年代,人工神经网络也在语音识别中取得突破。同时,我国的语音识别的研究工作也在有条不紊的展开,近十几年来,我国的语音识别研究也向大词汇量、非特定人、连续语音方面发展,并得到政府和各基金部门的关注和大量资助。国家863智能计算机专家组于1998年4月组织了对国内大词汇量连续语音识别系统的评测。清华大学电子工程系的语音识别系统获得了最好的成绩:字正确率为93%,句子正确率62.5%,其结果和IBM语音识别系统水平相当。中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,字准确率和系统响应率达90%以上。这些成果表明我国的语音识别研究已接近国际水平。61566
在最初的时候,我们实现语音识别需要高性能计算机和一些专用软件,这是个工作量庞大而复杂的过程。近几年,我们的集成电路有了很大进步,单片机的功能的代课增强,我们已经可以实现声控电视、空调等产品,从而让我们的生活更加美好。所以,语音识别技术用于控制系统具有很重要的意义。首先,它充分利用语音作为控制手段的便利性;其次,它摆脱了传统控制系统中缺乏交互性的特点,赋予了被控制对象部分人的特点(可以“听”得懂人说话)。[2]而选可以进行数字信号处理的单片机实现语音识别将会成为大势所趋。
语音识别是一个困难的问题,主要是因为与信号相关的变异有很多来源。 首先,音素,作为组成词语的最小的语音单位,它的声学呈现是高度依赖于他们所出现的语境的。 这些语音的变异性正好由音素的声学差异做出了验证。在词语的范围里,语境的变化会相当富有戏剧性---使得美国英语里的gas shortage听起来很像gash shortage,而意大利语中的devo andare听起来会很像devandare。其次,声变异可能由环境变化,以及传输介质的位置和特征引起。第三, 说话人的不同,演讲者身体和情绪上的差异可能导致演讲速度,质量和话音质量的差异。最后,社会语言学背景,方言的差异和声道的大小和形状更进一步促进了演讲者的差异性 。
1992年,美国国家科学基金会主办的研讨会,以确定人类语言技术领域重点研究的挑战,以及工作需要的基础设施支持。研究的主要挑战归纳为语音识别技术的以下几个方面:
鲁棒性:
在一个强大的系统,性能缓慢下降(而不是灾难性的)作为条件使得所与训练的数据更为不符。在信道特征的差异和声学环境上应受到特别重视。
可携性:
便携性是指目标的快速设计,开发和部署新的应用系统。目前,当系统时常遭受重大退化时,它便移动到一个新的任务上。 为了返回到峰值性能,他们必须接受培训的具体例子来完成新的任务,这样即费时又昂贵。
适应:
如何能适应系统不断变化的条件(新扬声器,麦克风,任务等)和使用,通过使用改进?这种适应可能发生在多层次的系统,模型子字,词的发音,语言模型等。
语言模型:
当前系统使用统计语言模型,是为了帮助减少搜索空间和解决声音的含糊问题。随着词汇量的增长和其他方面的限制放宽,创造更适合人类居住的系统,这将使越来越重要的语言模型可以得到尽可能多的约束,也许结合句法,并不能由纯粹的统计模型捕获语义约束。