数据采集和挖掘分析过程怎么做成标准的流程?

分类: 业务咨询数据采集和挖掘分析过程怎么做成标准的流程?
0
百分点 asked 7年 ago

RT

1 Answers
0
点金大数据 管理员 answered 7年 ago

可以参考专业的数据挖掘工具系统,比如SAS,SPSS,Java,Python,R等开源的相关数据挖掘分析系统也较多,如Weka,Rapidminer,Orange,R等等。
数据采集、存储、预处理、建模、模型训练测试优化、结果分析、可视化展示,大概的过程就这些关键步骤
详细流程可以参考下文:
CRISP-DM
1999年,在欧盟(European Commission)的资助下,由SPSS、DaimlerChrysler、NCR和OHRA发起的CRISP-DM Special Interest Group 组织开发并提炼出CRISP-DM(CRoss-Industry Standard Process for Data Mining),进行了大规模数据挖掘项目的实际试用。
CRISP-DM提供了一个数据挖掘生命周期的全面评述。它包括项目的相应周期,它们的各自任务和这些任务的关系。在这个描述层,识别出所有关系是不可能的。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。SIG组织已经发布了CRISP-DM Process Guide and User Manual的电子版。CRISP-DM的官方网址是http://www.crisp-dm.org/。在这个组织中,除了SPSS是数据挖掘软件提供商,其他的几个发起者都是数据挖掘的应用方。所以CRISP-DM和SPSS自有开发的SPSS Modeler契合度非常好。
一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入,下图中箭头指出了最重要的和依赖度高的阶段关系。
数据挖掘
上中最外面这一圈表示数据挖掘自身的循环本质,每一个解决方案发布之后代表另一个数据挖掘的过程也已经开始了。在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。后续的过程可以从前一个过程中得到益处。
我们把CRISP-DM的数据挖掘生命周期中的六个阶段,也就是上图中的概念解释如下:
业务理解(Business Understanding)
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
数据理解(Data Understanding)
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
数据准备(Data Preparation)
数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
建模(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
评估(Evaluation)
到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。