数据挖掘的含义及流程

一、数据挖掘的含义

1.技术上的定义及含义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

这个定义包括好几层含义:
·数据源必须是真实的、大量的、含噪声的;
·发现的是用户感兴趣的知识;
·发现的知识要可接受、可理解、可运用;
·并不要求发现放之四海皆准的知识,仅支持特定的发现问题;

何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据挖掘自身的维护。

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

2.商业角度的定义

数据挖掘是一种新的商业信息处理技术,数据挖掘功能是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据挖掘分析方法。数据挖掘分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,运用大量数据挖掘工具揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

二、数据挖掘的任务

数据挖掘的任务主要是分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化等。

1.分类 (Classification)

先从数据中选出已经分好类的训练集,然后运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。这些分类的个数通常是确定的,预先定义好的。

例子:
a.信用卡申请者,分类为低、中、高风险;
b.分配客户到预先定义的客户分片;

2.估值(Estimation)

估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

例子:
a.根据购买模式,估计一个家庭的孩子个数;
b.根据购买模式,估计一个家庭的收入;

3.预言(Prediction)

通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

4.相关性分组或关联规则(Affinity grouping or association rules)

决定哪些事情将一起发生。

例子:
a.超市中客户在购买A的同时,经常会购买B,即A => B(关联规则);
b.客户在购买A后,隔一段时间,会购买B (序列分析);

5.聚集(Clustering)

聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

例子:
a.一些特定症状的聚集可能预示了一个特定的疾病;
b.租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群;

6.描述和可视化(Des cription and Visualization)

是对数据挖掘结果的表示方式。

三、数据挖掘的流程

1.定义问题

清晰地定义出业务问题,确定数据挖掘的目的。

2.数据准备

数据准备通常包括:
·选择数据:在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;
·数据预处理:进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等;

3.数据挖掘

根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

4.结果分析

对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

5.知识的运用

将分析所得到的知识集成到业务信息系统的组织结构中去。

评论: 0 | 引用: 0 | 查看次数: 4080
发表评论
登录后再发表评论!