菜单
采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据。
(2)检测并消除近似重复记录
即对重复记录进行清洗。消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。
(3)数据的集成
在数据仓库应用中,数据清洗首先必须考虑数据集成,主要是将数据源中的结构和数据映射到目标结构与域中。在这方面已经开展了大量的研究工作。
(4)特定领域的数据清洗
不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。通用的、与应用领域无关的算法和方案较少。
近年来,国外的数据清洗技术发展得很快,从市场上存在的数据清洗
软件
可以看出,其中包括商业上的数据清洗软件,也有大学和研究机构开发的数据清洗软件。
2 国内研究现状
目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
共2页:
上一页
1
2
下一页
上一篇:
SSL/TLS协议的安全技术国内外研究现状
下一篇:
网络数据包分析捕获国内外研究现状
IIR系统识别国内外研究现状综述
超大规模集成电路技术国内外研究现状
自动闭塞分区优化设计国内外研究现状综述
国内外转载机研究现状及未来趋势
液压试验台的国内外研究现状和发展趋势
高速液压冲击加载系统国内外研究现状
混沌加密通信国内外研究现状综述
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
当代大学生慈善意识研究+文献综述
杂拟谷盗体内共生菌沃尔...
十二层带中心支撑钢结构...
大众媒体对公共政策制定的影响
中考体育项目与体育教学合理结合的研究
乳业同业并购式全产业链...
电站锅炉暖风器设计任务书
河岸冲刷和泥沙淤积的监测国内外研究现状
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
751论文网手机版...
主页:
http://www.751com.cn
关闭
返回