菜单
  

    采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据。
    (2)检测并消除近似重复记录
    即对重复记录进行清洗。消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。
    (3)数据的集成
    在数据仓库应用中,数据清洗首先必须考虑数据集成,主要是将数据源中的结构和数据映射到目标结构与域中。在这方面已经开展了大量的研究工作。
    (4)特定领域的数据清洗
    不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。通用的、与应用领域无关的算法和方案较少。
    近年来,国外的数据清洗技术发展得很快,从市场上存在的数据清洗软件可以看出,其中包括商业上的数据清洗软件,也有大学和研究机构开发的数据清洗软件。
    2 国内研究现状
    目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
  1. 上一篇:SSL/TLS协议的安全技术国内外研究现状
  2. 下一篇:网络数据包分析捕获国内外研究现状
  1. IIR系统识别国内外研究现状综述

  2. 超大规模集成电路技术国内外研究现状

  3. 自动闭塞分区优化设计国内外研究现状综述

  4. 国内外转载机研究现状及未来趋势

  5. 液压试验台的国内外研究现状和发展趋势

  6. 高速液压冲击加载系统国内外研究现状

  7. 混沌加密通信国内外研究现状综述

  8. java+mysql车辆管理系统的设计+源代码

  9. 酸性水汽提装置总汽提塔设计+CAD图纸

  10. 当代大学生慈善意识研究+文献综述

  11. 杂拟谷盗体内共生菌沃尔...

  12. 十二层带中心支撑钢结构...

  13. 大众媒体对公共政策制定的影响

  14. 中考体育项目与体育教学合理结合的研究

  15. 乳业同业并购式全产业链...

  16. 电站锅炉暖风器设计任务书

  17. 河岸冲刷和泥沙淤积的监测国内外研究现状

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回