2.4.1 查全率与查准率
查准率(Precision)是指所有被分类器分为类别C 的文本中正确文本的比率。查全率(Recall)是指所有属于类别C 的文本和被分类器分到该类别的比率。他们的公式如下[8]:
(2.23)
(2.24)
TP 指被分类器正确分类到类别C 的文本数,FN 是实际属于类别C 但分类器没有将其正确分到类别C 的文本数;FP 指的是实际不属于类C 却被分类器错误的分到类别C 的文本数。
2.4.2 F-测量
查准率和查全率从两个不同的方面反映了分类器的分类能力,有时如果单纯提高查准率将会导致查全率的降低,反之亦然,如果有一个指标综合考虑这两种指标,它将能很好的评价一个分类器的分类能力,这个评价指标就是F-测量,其计算公式如下:
(2.25)
其中 是一个调节因子,用于以不同权重考察查全率和查准率在F-测量中的作用,当 等于1 时,表示同等对待查准率和查全率,此时的F-测量指标被称为1 F 指标,定义如下:
(2.26)
2.4.3 微平均和宏平均
查全率、查准率和F-测量都是针对单个类别进行的度量,当需要对整个分类性能综合考虑时,我们需要将所有的类别的结果综合起来得到结果。基于这种考虑有两种评价指标:微平均(Micro-averaging)和宏平均(Macro-averaging)。微平均计算所有类别中正确分类和错误分类的文本总数,再求查全率R 和查准率P。宏平均则考虑所有类别中微平均和宏平均的算术平均值。目前还没有关于哪种评价指标好坏的定论。当数据集间的差异较大时,两者值的差异也较大。当某类别具有较低通用性的时候,宏平均更能反映分类能力[3]。
3 文本分类的算法实现
3.1 中文文本预处理
论文使用的语料库是中科院提供的标准语料库,选取了其中的10 类作为分类目标,其分别为:交通类、体育类、军事类、医药类、政治类、教育类、环境类、经济类、艺术类和计算机类。每类选取了200篇共计2000 篇文档作为训练文档,然后选取了库中300篇文档作为测试,流程图如图3.1。
图3.1中文文本预处理过程
中文不同于英语及其他语种,它的书面表达方式是以汉字作为最小单位的,即是字的序列,词之间没有间隔标记。而在自然语言理解当中,词是语言中最小的能独立运用的单位,是自然语言处理系统中重要的知识载体与基本操作单位。在自动文本分类技术中,基于字频的分类方法在实际使用中较为少见,大多数分类方法都是基于词的,而一些基于自然语言理解的方法也必须首先对文本进行分词。而且,由于中文特有的书写形式、灵活多变的构词方式以及对句子采取不同的分词形式可能产生完全不同的含义,对中文文本的自动切分比较困难。论文采用了中科院的“ICTCLAS 汉语分词系统”来对2300 篇文档语料库进行文本的分词。其软件网址为:http://www.751com.cn/。ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器之一[9]。
- 上一篇:基于最速下降法的FIR滤波器设计方法研究
- 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
-
-
-
-
-
-
-
中考体育项目与体育教学合理结合的研究
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
河岸冲刷和泥沙淤积的监测国内外研究现状
酸性水汽提装置总汽提塔设计+CAD图纸
电站锅炉暖风器设计任务书
乳业同业并购式全产业链...
大众媒体对公共政策制定的影响
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述