注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘与数据分析

个人微信:datamen 欢迎交流

 
 
 

日志

 
 

CRISP-DM数据挖掘方法论  

2008-05-07 11:47:59|  分类: 个人爱好 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

CRISP-DM数据挖掘实施方法论

CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题本身,而不是技术层面上。CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程,它们是:

l         商业理解Business understanding

这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题,并制定出一个旨在实现目标的初步计划。

l         数据理解Data understanding

数据理解阶段开始于原始数据的收集,接下来进行的活动是熟悉数据、识别数据质量问题、探索对数据的第一认识,或挖掘有深层含义的数据子集来形成对隐藏信息的假设。

l         数据准备Data preparation

数据准备阶段包括所有从原始未加工的数据构造最终数据集的活动(这些数据集是指将要嵌入建模工具中的数据)。数据准备任务可能实施多次,而且不按任何规定的顺序。这些任务包括表格、记录和属性选择以及对建模工具中数据的转换和清理。

l         建模Modeling

在此阶段,主要是选择各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种方法。一些方法在数据形式上会有具体的要求。因此,常常必须返回到数据准备阶段。

l         评估Evaluation

进入项目中的这个阶段,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。在进行到模型的最后发布前,有一点是很重要的——更为彻底地评估模型和检查建立模型的各个步骤,从而确定它完全地达到了商业目标。一个关键目标为决定是否存在一些重要地商业问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。

l         发布Deployment

模型的创建通常并不是项目的结尾。即使模型的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现。这常常包括在一个组织的决策过程中应用“现场”模型,如在网页的实时个人化中或营销数据的重复得分中。不过,根据需要,发布过程可以简单到产生一个报告,也可以复杂到在整个企业中执行一个可重复的数据挖掘过程。大部分情况下,是由客户来实施发布的,而非数据分析师本身。尽管如此,即使分析师并不执行发布,这对客户也是十分重要的——提前理解需要采取什么行动来实际利用产生的模型。

此流程模型有几个关键点。首先,有几个步骤相互之间的影响比较大。比如,数据准备通常在建模之前,但是在建模过程中做出的决策以及收集到的信息可能会导致重新准备数据,这两个步骤相互交叉一直到两个步骤都得到比较好的解决。类似的情况还有,评估步骤会导致重新评估最初的业务理解,用户可能会觉得这是在回答错误的问题。在这一点上,用户可能会重新修订业务理解直到达到更好的目标。

第二点是数据挖掘的迭代特性,很少能有一次性完成整个流程的情况。使用数据挖掘解决客户需求是一个发展的过程。从数据挖掘循环中获得的知识往往会带来新的问题。这些新问题又通过进一步的数据挖掘解决。这个挖掘与找到新问题的过程应当成为用户考虑总体业务战略的一部分。

 

  评论这张
 
阅读(390)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017