随着人类与社会的发展,人类所能使用的仪表和仪器的水平也随之不断提高,尤其是质谱分析技术。质谱法也越来越成为蛋白质研究中的主要研究方法。质谱是以一种特殊方式使有机分子分离成离子,根据他们不同的强度,将其排列成谱,因此这种研究物质的方法叫质谱法,这种研究仪器叫质谱仪。由于质谱图对应着大量数据,因此分析这些数据存在一定的难度,而质谱分析就是另辟蹊径,采用计算机算法来分析这些多维海量数据,从而建立蛋白质图谱模型以用于进一步癌症肿瘤蛋白的诊断[3]。文献综述
本文中,待处理的数据是癌症蛋白的质谱数据,主要是处理其中提取出的荷质比和离子强度数据,对其进行特征提取,最后识别并分类出未知质谱数据。
2 质谱数据
2.1 质谱技术简介
通过对样品的电离、加速、检测后,最后实现定性和定量的分析。具体过程如下:
(1)离子化
利用电子流轰击气化的物质分子得到离子是最常用的方法。由分子的稳定性,维持分子在一起的键能非常高,因而用来碰撞的电子流的能量常常远大于这一能量。本文采用的蛋白质质谱数据,是采用通过表面增强激光解吸电离/飞行时间质谱技术 ( SELDI- TOF- MS )而获得的数据。
(2)加速
此过程会使得所有的离子具有相同的动能。
(3)偏转
在磁场装置中,离子偏转程度由两个因素决定。一是质量;二是正电荷数(即在第一阶段失去的电子数)。
(4)监测
经过磁场,监视器可由每束离子流产生的电流量从而直接记录离子数。
由质谱仪可以输出一个质谱图,它是一个离子积累量对质荷比的条形图,其中横坐标是质荷比(m/z),纵坐标是离子积累量(峰高),质谱条形图中最高的峰被称为基峰,基峰的值往往会被定成100,其它的峰都会根据它的变化进行标准化,基峰对应的质荷比反映出了最常态形成的离子碎片的质量,质谱图中峰的分布情况可以反映物质的一种特性表现,通常不同物质对应不同质谱图。
2.2 基于蛋白质质谱数据的癌症诊断
目前,利用蛋白质质谱数据在癌症肿瘤和正常组织中的差异性对癌症肿瘤进行分类与诊断,在医学研究领域中已基本达成共识。当前的癌症肿瘤分类技术,即便是在一些组织没有明显变化的情况下,利用蛋白质质谱数据也可以对其做出早期癌症肿瘤的诊断。于此同时,尤其重要的一点是该技术可以根据质谱数据的变化来区分形态上有相似度的癌症肿瘤。因而,基于蛋白质质谱数据的癌症肿瘤分类对癌症肿瘤发生机制的掌握以及战胜这些癌症肿瘤提供了重要的科学思路。
本文中,将要提出的利用蛋白质质谱数据进行癌症肿瘤诊断的新方法是:先对相关数据进行预处理,再利用二次PCA提取主成分,构建特征子空间来提取特征,然后再训练分类器(SVM),利用刚刚得到的分类函数去测试这些新的样本,最后根据测试数据集后的结果对二次PCA的效果进行判断。来.自/751论|文-网www.751com.cn/
3 数据的预处理
蛋白质质谱数据具有维数高、样本小、含噪音、非线性等特点,若直接对这些数据进行处理,不仅增加了处理问题的复杂性,而且由于蛋白质质谱数据的这些特点,主成分分析不能直接处理超小样本的蛋白质质谱数据,因而处理效果也不能让人满意,所以必须要采用降维处理的方法。因此,为了降低处理数据的复杂性,提高处理数据的效率,还需要对数据进行预处理,本文中在特征提取之前对蛋白质质谱数据进行的预处理包括数据的标准化和降维两项工作。