计算机出现之后,OCR就诞生了。第一代的OCR只能识别一部分特定字形或字体的字符,发展到第二代时已经能够识别工整的手写体和印刷字符了,其中以手写数字的识别发展最为迅速,第三代则要求计算机处理更为复杂更为一般的情况,即不加限制地识别所有手写体字符,其中无限制手写体阿拉伯数字识别又是数字识别中最困难的部分[1]。65297
在我国,这项技术由20世纪70年代戴汝为院士牵头进行,现有应用于邮政信件自动分拣中的手写体数字识别系统,市场上也有多项手写体汉字识别产品。自动识别理论和技术在强烈的社会需求推动下不断向前发展。
OCR主要由硬件获取图像和软件识别图像组成。
1 图像获取
图像获取系统是视觉检测中最重要的部分,它负责将实物图像通过输入设备采集,转模拟信号为数字信号,送给计算机做后续处理,因此图像获取系统直接影响到识别结果。很多传感器技术被用于图像获取系统中,如光学传感器、固态传感器和超声波传感器,其中以光学传感器应用最为广泛。而光学传感器又可分为CCD(电荷耦合元件)和CMOS(金属氧化物半导体元件)两大类[2]。
2 图像识别
印刷体英文字母规范,一般采用字符点阵法,相对来说识别率较高,但手写体字母识别却比较复杂也更加困难,目前主要有以下几种识别方法[3-5]:
(1) 模板匹配法论文网
此法对每一模式类都分别定义一个基准模式作为模板,将待识字母同所有模板做比较,最终归类于差别最小的类别。
一般只适用于识别印刷字母和附加很多限制的手写体字母。
(2) 统计决策法
其严格的数学基础使得此法的发展迅速且日臻成熟,一个重要代表是贝叶斯分类法:由贝叶斯公式求出后验概率,取后验概率所有类别中的最大者为待识字母所属模式类。
此法因其严格的数学计算受干扰影响比较弱。
(3) 模糊识别法
此法用模糊集合表示模式类,以隶属度度量未知样本同标准模式之间的相似程度,再据此将模糊集合划分为若干子集,子集个数由期望的模式类数决定,最后由择近原则分类。
模糊数学使得整体特征得到表现,但合理的隶属度函数难于建立。
(4) 神经网络法
此法让人工神经网络通过学习各模式类中的样本,来记忆住样本特征,在遇到待识别的特征时可以回忆出样本特征,并比较确定其所属的模式类别。
这种方法在非线性领域有很大应用,且受干扰影响小,样本变化对总体识别效果影响并不大,但其准确度需要由好的特征向量保证。