2.1 知识发现的概念
知识发现是从海量的、模糊的、有噪声的、不完全和随机的实际应用数据中,挖掘出隐藏在其中不为所知的、却又是潜在对人们非常有用的信息与知识的这样一个过程。知识发现是一种现在比较新的信息处理技术,它的特点就是对信息数据库中看似不相关的业务数据进行提取、转换、综合分析和模型化的处理,从中挖掘出对商业决策有重要作用的信息和数据。总之,知识发现就是具有深层次的数据挖掘和分析的一种方法。
2.2 知识发现技术
知识发现技术是人们长期对数据库技术进行研究和开发的结果。大部分情况下,知识发现都要先把数据从数据仓库中拿到知识发现库或数据集市中,因为数据仓库会对数据进行清理,并会解决数据的不一致问题,这会给知识发现带来很多好处。
知识发现有描述和预测两个高层目标,描述性的知识发现任务是刻画数据库中数据的一般特征。预测性的知识发现任务是建立一个或一组模型用于对新数据进行预测。知识发现的任务主要包括以下751个方面。
①类/概念描述:特征化与区分,数据可以与类或概念相关联。用简洁的和精准的方式来表示每个类或概念可能是有用的。数据的区分其目的就是让目标类对象的普通特性与一个或者多个的、其他的对比类对象的普通特性进行比较。
②关联分析:关联分析是发现属性之间的关联规则,这些关联规则表示为属性这―值频繁地在人们所给定的数据集中可能会一起出现的条件。一般地,关联规则有形式 ,即 ,这里 , 和 , 是属性―值对。关联规则 可解释为“满足条件X的数据库记录很有可能也满足条件Y”。
③分类与预测:分类是找出描述并区分数据类或概念的模型或函数(也常称作分类器),以便能够使用模型预测类标记未知的对象类。分类器的构造方法有统计方法、机器学习方法和神经网络方法等。
④聚类:与分类与预测不同,聚类分析的对象是不带有类标签的目标数据。聚类自动生成类标签。
⑤孤立点分析:与数据的一般行为或模型不一致的数据对象。使用统计试验检测,假定一个数据分布或概率模型,并使用距离度量,到其他聚类的距离很大的对象被视为孤立点。
⑥演变分析:描述随时间变化的对象的行为规律或趋势。
2.3 知识发现的步骤
知识发现[3](Knowledge Discovery in Database),就是在大量的数据中提出有用的知识,知识发现过程如图2所示,由以下步骤组成:
1.数据清理
2.数据集成
3.数据选择
4.数据变换
5.数据挖掘
6.模式评估
7.知识表示
图2 数据挖掘视为知识发现过程的一个步骤
3. 关联规则及其挖掘算法
3.1 关联规则概念
关联就是有两个或两个以上的变量的取值它们之间存在的某种规律。关联可分为因果关联、时序关联、简单关联。关联分析其目的就是要从大量的数据中发现出隐含的属性之间存在的联系和规则,所以关联规则表示数据库中一组对象之间某种关联关系的规则。有时我们并不能求出数据库中数据的关联函数,甚至求出了关联函数它也是不能确定的,所以关联规则带有可信度[3]。
设 为数据项集合, 为与任务相关的交易数据库,其中的每一个交易 是一个数据项子集,即 ,每一条交易记录存在一个识别编号 。 为数据项集合,当且仅当 时,称交易 包含 。
定义1:关联规则是指具有“ ”形式的蕴涵式,其中: 且 它表示如果项集X在某一事务中出现,则必然会导致项目集Y也会在同一事务中出现。X称为规则的先决条件,Y为规则的结果。
- 上一篇:模糊推理系统及其仿真研究+文献综述
- 下一篇:贝叶斯分类器及其应用研究+源码+文献综述
-
-
-
-
-
-
-
电站锅炉暖风器设计任务书
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
当代大学生慈善意识研究+文献综述
河岸冲刷和泥沙淤积的监测国内外研究现状
十二层带中心支撑钢结构...
杂拟谷盗体内共生菌沃尔...
乳业同业并购式全产业链...
中考体育项目与体育教学合理结合的研究