到目前为止,绝大多数的文本分类工作还是由人工来完成的。无论是个人电子文本的整理还是国际专利文献的分类,通常都离不开人的脑力劳动。特别是海量文本数据的分类处理,更是需要大量熟练的相关领域内的专家参与其中。这种传统的人工分类的做法存在着很多弊端。首先是耗费大量的人力,物力以及财力;其次是存在分类结果一致性较低的问题;并且面对网络中如此浩瀚的信息文档,用人力去做处理显然显得有点不合适。研制与开发能有效代替人工进行快速、准确分类的自动文本分类系统,研究和发展相应的自动文本分类技术就显得十分迫切[1]。
1.1 文本分类研究意义
文本分类已被应用于众多领域,包括以下方面:
a) 信息组织。对文本进行组织可以提高用户查找的效率。比如目前图书馆的归类体系,就能够避免读者进行遍历式查找。
b) 信息过滤。随着信息获取方便性的提高,人们对获取更为相关的信息的需求也在不断增长,迫切需要一种智能的信息过滤技术根据用户的需要对源源不断到来的文本进行动态的分类、筛选。从而保留有用信息,屏蔽无关信息。
c) 邮件分类。垃圾邮件不仅对网络安全形成威胁,而且还造成了各方面资金上的巨大浪费,对垃圾邮件进行“围剿"已经刻不容缓。目前邮件分类可以看作通常的文本分类问题。
d) 话题跟踪。从文本挖掘的角度上来说,话题识别类似于文本聚类,而话题跟踪类似于多类文本分类。作为一项旨在帮助人们应对信息过载问题的研究,这类新技术是现实中急需的,比如:自动监控各种信息源(如广播、电视等),并从中识别出各种突发事件、新事件以及关于已知事件的新信息,这可广泛用于信息安全、证券市场分析等领域。
e) 新信息检测。文档信息检索技术能够在一定程度上满足文档的检索需求,但是往往会包含大量的无关的、重复冗余的信息,同时信息粒度偏大。为此,人们希望研发出一种新的检索技术,该技术能够检索出粒度比文档更小的相关信息,并进一步排除冗余、陈旧的信息。
总之,文本分类可节约大量人力和财力,避免人工分类带来的周期长、费用高、效率低等诸多缺陷。可以说研究文本分类有着广泛的商业前景和应用价值[2]。
1.3 的主要工作
本文对基于机器学习的中文文本分类技术做了全面的学习分析。对中文的分词、特征选取、各种分类算法进行了深入的研究。在中科院分词系统的基础上运用朴素贝叶斯和KNN两种方法对相同的十类文本集进行分类并比较,从实验结果出发去评估算法的优劣以及适用的范围。
第一章是引言部分,对文本分类进行一个综合的阐述。主要介绍文本分类的研究意义。详细阐述了研究历史和国内外的研究现状。
第二章是介绍了文本分类的结构框图,对文本分类有一个直观而全面的认识。并针对文本的特征表示、特征选择、权值计算、几种主要的分类算法和分类结果评估方法进行了详细的介绍。
第三章是介绍本次实验所进行的中文文本分类的预处理,包括分词、词典生成、特征选取、计算权值,以及KNN和朴素贝叶斯两种算法的具体实现和在这个过程中遇到的问题。
第四章是针对实验的结果进行对比分析,由此总结出两种算法的优劣。
2 文本分类技术简介
文本分类是一个有指导的学习过程。它根据一个己经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断,可以更形式化地对文档分类过程进行描述[3]。假设有一组文档概念类C和一组训练文档D。文档概念类和文档库中的文档可能满足某一概念层次关系h。客观上,存在着一个目标概念T,有:
- 上一篇:基于最速下降法的FIR滤波器设计方法研究
- 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
-
-
-
-
-
-
-
中考体育项目与体育教学合理结合的研究
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
河岸冲刷和泥沙淤积的监测国内外研究现状
酸性水汽提装置总汽提塔设计+CAD图纸
电站锅炉暖风器设计任务书
乳业同业并购式全产业链...
大众媒体对公共政策制定的影响
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述