1 绪 论
近年来,随着互联网和多媒体等技术的发展,人类的生活方式发生了巨大的变化,在信息庞大的信息时代,图像和视频等媒体形式越来越扮演着重要的角色,互联网的收索不仅要求收索文字信息,更希望能够把图像和视频中的文字信息收索出来,因为图像和视频中的文字往往代表了图像的内容和意义,对于人们的理解有着重要意义。所以如果能够直接找到图像和视频中的文字信息,对于各项技术和互联网应用、收索等有着非常重要的意义。本文主要探讨和介绍了目前的文字提取的研究成果,主要的研究方法等,然后根据其中的某种方法进行实验,并分析实验结果以及效果的比较等。
1.1 文字提取的意义
随着互联网和多媒体等技术的发展,越来越多的信息以图像、视频和声音的形式呈现给我们。自然场景中的标志提供大量的诸如指示、位置和状态的有用信息。很多图像和视频中都有这样的文本,这是一种高层语义资源。这些文本信息在一定程度上反映了该图像的内容或性质。在信息量日益庞大的今天,大信息量给人们带来便利的同时,也像一把双刃剑一样带来了一些问题,比如大量的信息使人们难以消化,如何找到有用的信息是当今极为迫切的需求。如今有很多像百度、google这样的基于文字的收索引擎,可以很好的根据相应的文字描述信息来检索和分类信息,像视频、图像和音频等多媒体信息都是通过相应的文字标志或者文字描述来进行检索分类的。
如果能够使用一个好的算法自动识别和提取视频和图像中的文字信息,将对高层语义的检索和索引等应用技术领域具有广泛的实用价值,必将带来收索引擎的一场变革。比如图书馆的资源收索等,有些资源为图片或视频资源,如果能够提取出文字信息,将可以方便的收索,提高收索的效率和准确率,做到真正的查全。
如今的商业OCR软件能够识别基本的文档图像,前提是有较好的文档图像和比较好的清晰度。如果能够把图像或视频中的文字定位出来并二值化,处理为好的文档图像,则可以直接送入到OCR软件中识别,所以现在的关键技术是如何做好对视频和图像中的文字定位和提取工作。
1.2 国内外的研究现状
1.3 本文的主要工作
首先需要声明,本文主要是参照文献[4]和[8]所提出的的理论基础上实现的文本定位和提取方法,对方法做了一定的简化和改动,以达到更好的效果。
本文首先对前的文本定位和提取的方法分类做了一个整体的介绍,并做了一定的分析,然后对本文实现的文本提取识别的理论做了一个详细的介绍,最后对实现的文本定位和提取的实验结果进行了优劣的分析和比较。论文网
本文首先利用canny边缘检测对彩色图像的各个分量进行边缘检测,然后提取边缘线条,通过对线条的处理,过滤部分明显非文字的线条,然后进行响应的区域的合并,形成文字区域。
对于文字区域的分割,本文没有把每一块文字单独提取出来,而是以原来的位子显示在图像中,包括对区域的二值化和极性的判断,以保证文字是黑色的而背景是白色的,方便OCR软件的识别,最后还要过滤掉不正常的黑色块,最后送入OCR软件识别。
1.4 论文的组织安排
本文主要的内容安排如下:
1. 第一章绪论主要介绍文字检测与提取的意义、国内外的研究现状以及本文的主要内容。
2. 第二章主要介绍了当前的文字提取与识别的研究现状和主要的方法。大致的方法是基于边缘的、基于纹理的、基于区域的和基于学习的方法。