菜单
  


    d) 支持向量机SVM
    支持向量机方法是建立在统计学习理论的VC 文理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。
    在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量和一个标记组成。如下:
     
     就是文本向量(文数很高), 就是分类标记。我们可以定义一个样本点到某个超平面的间隔:
    图2.2 支持向量机模型图示
    SVM的基本思想可用上图的两文情况说明:实心点和空心点代表两类样本,H为分类线,HI、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大,原理示意图如图2.2。把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成:
                                                   (2.21)
    yi[(w•xi)+b]≥1 (i=1,2,…,l)
    因此我们的两类分类问题也被我们转化成了它的数学形式,一个带约束的最小值的问题:
     
    Subject to              (2.22)
    满足以上公式且 最小的分类面就叫做最优分类面,H1和H2上的训练样本点就称作支持向量。
    基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-VS-Rest、One-VS-One、ECOC(Error—Correcting Output Coding)、DAGSVM和二叉树等方法[7]。
    2.3.2  人工神经网络
    人工神经网络是对人类大脑的一种模拟。它由一组处理单元和它们之间的联接组成:处理单元包括输入单元,隐藏单元和输出单元,它们具有局部内存,并可以完成局部操作,可以接受多个输入信号,产生一个输出信号,这个信号可以传播到多个联接上:联接能够以一定的权值传送信号,这些权值在神经网络的训练过程中可以动态调整;各处理单元可以并行运行。它适于学习复杂的非线性映射,主要应用于语音、视觉、知识处理、辅助决策等方面。根据网络结构和学习算法的不同,人工神经网络分为多层感知器、自组织映射和Hopfieldl网络等[8]。
    2.3.3  决策树分类法
        决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树。决策树通过把实例从根节点排列到某个子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点指定了对实例的某个属性的测试,并且该结点的每个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝上下移动,这个过程在以新结点为根的子树上重复。决策树算法有ID3、CART、CHAID、ASSISTANT 算法,他们的区别在于构造决策树和树枝剪枝的算法细节不同。决策树对噪声数据具有很好的健壮性,最大缺点是不适应大规模的数据集[3]。
    2.4  性能评估
    随着信息技术和Internet 的发展,算法对数据的处理能力越来越需要大量化和精确化,文本分类算法标准从三个方面评价:有效性、计算复杂性,可理解性。有效性衡量一个分类器准确分类的能力;计算复杂性衡量算法的时间复杂度和空间复杂度;可理解性是衡量该算法是不是很好被理解,人们更易接受很好理解的算法。得宜于硬件的高速发展,我们不再缺少快速的机器和海量内存,我们在评价文本分类算法时更倾向于它的有效性,有效性主要有3 个指标:查全率(Recall)、查准率(Precision)、F-测量(F-Measure)。
  1. 上一篇:基于最速下降法的FIR滤波器设计方法研究
  2. 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
  1. 基于OFDM的用户接入控制技术研究

  2. 基于OFDM的数字图像无线传输关键技术研究

  3. LSSVM采用几何方法的图像观测技术实现

  4. QPSK无线通信网络中基于...

  5. msp430g2553单片机高精度差分GPS技术研究

  6. VLC可见光通信关键技术研究

  7. MATLAB视频图像液滴速度检测技术研究

  8. 中考体育项目与体育教学合理结合的研究

  9. java+mysql车辆管理系统的设计+源代码

  10. 十二层带中心支撑钢结构...

  11. 河岸冲刷和泥沙淤积的监测国内外研究现状

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 电站锅炉暖风器设计任务书

  14. 乳业同业并购式全产业链...

  15. 大众媒体对公共政策制定的影响

  16. 杂拟谷盗体内共生菌沃尔...

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回