随着信息技术的不断发展,基于内容的信息检索和数据挖掘逐渐成为备受关注的研究领域。文本分类是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的一组训练文本和它们的类别的情况下,对文档根据其内容判定其类别。
在介绍文本分类技术的基础上,比较研究了朴素贝叶斯和KNN两种分类算法,并将其应用应用于中文文本分类。预处理过程中首先在中科院分词系统基础上对文本进行分词,然后应用基于文档频的互信息原理对文本特征选择达到降文效果,通过对文本TFIDF加权处理后获得向量结构模型,最后使用两种分类算法进行中文文本分类。5773
实验结果表明,两种文本分类算法各有其特性:朴素贝叶斯具有较快的分类速度,但分类不准;KNN 针对加权后得到的高文稀疏向量具有分类准确度较高、分类速度较慢的特性。
关键词:中文文本分类;朴素贝叶斯;KNN
毕业设计说明书(论文)外文摘要
Title Research on Text Classification Technology
Abstract
With the development of Information technology,content based information retrieval and data mining will be a concerned field of investigation increasingly.Text categorization(TC) is regarded as an important foundation of information retrieval and text mining,Its key tests are that the PC decides the class label of a text basing on its content in the time of giving a group of training texts and its class label.
The two algorithms of Native Bayes and KNN on Chinese text categorization are compared in my paper.First, the Chinese texts are classified by useing the ICTCLAS.Then,the frequency feature selection is finished by applying the mutual information based on DF,and in order to make the texts have a uniform and disposal structure-model,I use TFIDF to value the feature.Finally,the predict texts are classified by using the two algorithms.
It will be seen from the results of experiment that the two text categorization algorithms have their characteristics respectively.Naïve Bayes is compared in the paper that it has a worse accuracy and a better speed than KNN.The other one has a better accuracy and categorization capability,but it is much slower.
Keywords Chinese Text categorization Native Bayes KNN
目 次
1 引言 1
1.1 研究的意义 1
1.2 研究的历史与现状 2
1.3 本文的主要工作 3
2 中文文本分类技术简介 4
2.1 文本分类系统 4
2.2 文本预处理 5
2.3 几种分类方法 10
2.4 性能评估 13
3 文本分类的算法实现 16
3.1 中文文本预处理 16
3.2 特征项权重的计算以及降文 17
3.3 预处理流程 19
3.4 KNN算法实现 21
3.5 贝叶斯算法实现 23
4 结果分析 25
4.1 系统框架 25
4.2 结果评估 25
结论 28
致谢 29
参考文献 30
1 引言
随着国际互联网和企业内部互联网的飞速发展,我们正处于一个到处充斥着信息的社会,各种电子文本数据的急剧增加,已经达到了人工难以掌握和管理的地步。因此,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十年来,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们普遍的关注。
- 上一篇:基于最速下降法的FIR滤波器设计方法研究
- 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
-
-
-
-
-
-
-
中考体育项目与体育教学合理结合的研究
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
河岸冲刷和泥沙淤积的监测国内外研究现状
酸性水汽提装置总汽提塔设计+CAD图纸
电站锅炉暖风器设计任务书
乳业同业并购式全产业链...
大众媒体对公共政策制定的影响
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述