如何成为一名优秀的数据分析师

推荐会员: goodway 所属分类: 行业精选 发布时间: 2015-12-31 23:51
因为在之前的回答里提到,建议希望成为数据分析师的知友们在学习过相关知识以后,做一份自己的数据报告,作为求职的敲门砖,展示已有能力。后来发现,我这个建议自以为干货,但其实犯了“给鸡汤不给勺子”的错误,很多人(>20个)发私信来问我报告到底怎么做……为了不违反我的人生准则之一——给鸡汤必须给勺儿,现在我就来帮初学者们梳理一下数据报告的制作方法。

目录:

一、为什么要做一份数据报告

二、制作数据报告的流程

三、Q&A
正文:

一、为什么要做一份数据报告

你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信满满,准备去投简历,然后发现不清楚各种工具和模型的适用范围,也不知道数据报告需要包括哪些内容,面试的感觉就是一问三不知……

你是一个工作了一段时间的白领,你觉得现在这份工作不适合你,你下班以后去逛知乎,在上面看到很多人在说大数据代表未来,数据分析师是21世纪最性感的十大职业之一……你激动了,你也要成为数据分析师,你利用空余时间补上了统计知识,学了分析工具,然后发现自己目前的工作跟数据分析没啥关系,觉得没有相关经验没公司要你……

这些问题的根源是什么?一句话可以概括:你没有办法在最短的时间内向招聘者展示,你能够胜任数据分析这项工作。

我在之前的回答如何快速成为数据分析师? – 陈丹奕的回答中,提出过一个“100小时学习计划”,在开始投简历前的最后一步,我建议用25个小时——占整个计划的四分之一,来做一份数据报告,这个步骤至少能为你带来三个好处:

  • 检验你的学习成果——数据分析是一门实用学科,能灵活运用学到的知识做出成果,比通过任何考试都重要;
  • 测试你是否真的想做/适合做数据分析工作——比起你转行后用半年或是一年时间来发现自己的真实想法,不如在此之前就看看你能否做好这份工作,或是从其中得到乐趣;
  • 展示你具有的能力——程序员的世界里讲究“No more talk,Show me the code”,数据分析师同样可以“Show me the report”,一份内容完整的数据报告,能帮你的面试官省下很多判断/评估/纠结的时间,给你更多的机会。

写了一大堆做数据报告的好处,那么以一个初学者的水平,如何去做一份数据报告呢?下文细说。

二、制作数据报告的流程

先放一张图(不许抱怨配色丑!)

可以很清楚的看到,一个数据报告(副本)依据需求不同,有普通难度(蓝->橙->绿->红),也有英雄难度(蓝->橙->绿+黄->红),这次我们先讲普通难度的攻略,英雄难度放到下次讲。

普通难度的数据报告要经历7个步骤:

Step 1:目标确定

这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。

选择目标时,请注意以下几点:

  • 选择一个你比较熟悉,或者比较感兴趣的领域/行业;
  • 选择一个范围比较小的细分领域/细分行业作为切入点;
  • 确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。

逐一分析上面三个注意点:

选择熟悉/感兴趣的领域/行业,是为了保证你在后续的分析过程中能够真正触及事情的本质——这一过程通常称为洞察——而不是就数字论数字;

选择细分领域/行业作为切入点,是为了保证你的报告能够有一条清晰的主线,而非单纯堆砌数据;

确定公开数据/UGC内容,是为了保证你有数据可以分析,可以做成报告,你说你是个军迷,要分析一下美国在伊拉克的军事行动与基地组织恐怖活动之间的关系……找到了数据麻烦告诉我一声,我叫你一声大神……

不管用什么方法,你现在有了一个目标,那么就向下个阶段迈进吧。

Step 2:数据获取

目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。如果现在你还不确定自己需要哪些数据,那么……回到第一步重来吧。

下面我总结一下,在不依赖公司资源,不花钱买数据的情况下,获取目标数据的三类方法:

一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。举例:要找汽车销量数据,在百度输入“汽车销量数据查询”关键字,结果如下:

我打码的那个链接,也就是第三个链接(第一个非推广链接)就是要找的结果,点进去可以看到各月的汽车销量,但只是全国数据,没有分省统计数据。

当然不会每次找数据都这么顺利,这里只是告诉你:要善用搜索引擎。

二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。另外,淘宝上有很多帮人抓数据的店……

三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。

如果你是在职人员或是实习生,我建议你不要用任何现在公司的数据。保证数据的安全性,不对外泄露公司的任何非公开数据,是数据分析师的基本职业道德。实在非要用(例如你要在面试中展示你在以前公司做过的数据报告),请将一切有意义的内容,包括但不限于各种数字、竞品及本品名称、时间、用户属性全部打码并转成pdf格式,只留图形和叙事逻辑描述内容。

Step 3:数据清洗

在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。

如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。

无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。

Step 4:数据整理

清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。

如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。

如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。

Step 5:描述分析

描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计。

数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。这次我们是零基础做数据报告,那么就不用考虑后一类数据了。

指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;

  • 变化:指标随时间的变动,表现为增幅(同比、环比等);
  • 分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;
  • 对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;
  • 预测:根据现有情况,估计下个分析时段的指标值。

以上部分引用自我的一个回答面试中针对一个企业的数据分析场景应该怎么去分析?应届生还不懂怎么结合企业业务做系统的分析,求指点 – 陈丹奕的回答,希望进一步了解的话,可以进这个答案。描述分析的产出是图表,下一个步骤的内容将基于这些图表产出。

Step 6:洞察结论

这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。

举个栗子:

年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。

年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。

看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。

再举个栗子:

这张图是一个用户行为聚类的结果,人群被聚成四类。前三类人群可以很清楚的得出结论:他们是某一种游戏主机的用户。那么第四类人群,是什么人群呢?

年轻的分析师:第四类人群是游戏主机的狂热爱好者,他们交易频率远高于一般用户。

年迈的分析师:第四类人群是二手贩子,否则谁没事一年内会搞将近7台索尼主机放家里。

很明显,年迈的分析师由于具备丰富的行业经验,能迅速看穿数据背后的真实情况,得出正确的洞察结论,这也是为什么我在step 1里一再强调要找你熟悉或感兴趣的领域/行业,缺乏业务经验,很可能你的洞察结果是完全错误的。

以上这两个洞察的例子本身比较简单,但通常来说,即使是复杂的数据报告,也是由一个个相对简单的洞察结论组成的,这其中涉及到问题的分拆,逻辑线的建立等一系列内容。作为初学者,做到自己力所能及的程度就好。

总结一下,所谓洞察,就是要越过数据,去推测和理解真实情况。单纯描述数据,谁都会做,根据数据得出有价值的结论,报告才有意义。

Step 7:报告撰写

都到这一步了,相信各位对数据报告也不再陌生了。这一步中,需要保证的是数据报告内容的完整性。

一个完整的数据报告,应至少包含以下六块内容:

  1. 报告背景
  2. 报告目的
  3. 数据来源、数量等基本情况
  4. 分页图表内容及本页结论
  5. 各部分小结及最终总结
  6. 下一步策略或对趋势的预测

其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。

还觉得复杂么?我再换一种说法:

各位应该都写过议论文,一份好的数据分析报告其实就是一篇好的议论文,立论(背景)——破题(目的)——列举论据(图表+结论)——论证论点(小结及总结)——结题(策略或预测)。按照这个逻辑去组织你的报告,你的论点就很容易被人接受,自然能得高分喽。

三、Q&A

有问题请在评论中提问,或私信给我,我会在此处不定期更新

Q1:我按照数据收集的方法去找了,但还是找不到数据怎么办?

A1:确定你是否认真找了,如果确实没有,那么换个领域。
Q2:不知道怎么做数据清洗?

A2:把收集来的数据先看一遍(如果太多就抽样),肉眼识别一些脏数据, 记录下来,然后从中抽取清洗规则,清洗一遍,再继续看,直到认为足够干净了为止。这一步不做的话,主要影响结论的正确性。

Q3:分析层是否应该是一个闭环?

A3:是的,本文中作者为了照顾初学者未将该部分细化,完整版见下图,也可在专栏文章《建模那点事儿(上,下)》中详细阅读。

今天要说内容是建模。为啥我作为一个数学能力并不强的人要在这献丑讲建模的事呢?其实我的目的很简单,就是为了告诉大家一个事实:数据分析中的建模,并没有想象中那么高深莫测,人人都有机会做出自己的模型。

第一部分:数据建模理论和逻辑

一、从数据分析的定义开始

维基百科对数据分析的定义如下:

Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
(来源:Data analysis

简单翻译:数据分析是一个包含数据检验、数据清洗、数据重构,以及数据建模的过程,目的在于发现有用的信息,有建设性的结论,辅助决策的制定。数据分析有多种形式和方法,涵盖了多种技术,应用于商业、科学、社会学等多个不同的领域。

和上篇文章中我画的图对比一下:

数据建模我在上篇文章中为了让初学者更容易走通全流程,简化了数据清洗的过程,实际上数据清洗绝非一次完成,“检验-清洗-检验”的过程可能会重复数次乃至数十次。

而建模呢?再次引用维基上对数据建模的定义:

Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.(来源:Data modeling
简单翻译:数据建模是一个用于定义和分析在组织的信息系统的范围内支持商业流程所需的数据要求的过程。因此,数据建模的过程需要专业建模师与商业人员和信息系统潜在用户的紧密合作。这段话的定义更偏向信息系统和商业数据建模,我之所以在此引用这段话,是为了明确接下来的讨论内容主要方向是商业数据分析和建模,至于科学研究方向的数据建模,不在这篇文章的讨论范围以内。

请注意上边这段话中的一个核心:支持商业流程。商业数据建模,乃至商业数据分析,其最终目的都是要支持某种商业流程,要么优化原有流程,提高各部分效率;要么重构原有流程,减少步骤;要么告诉决策者,哪些流程改造方向是错误的,以避免走错路。最终的目标,一定是提升效率。但在不同的情况下,提升效率的方式也是不同的,因此在每个模型建立时,都需要确定其解决的具体目标问题。

再往前走一步,数学—主要是统计学,在建模的过程中又扮演什么样的角色呢?继续引用维基:

Mathematical formulas or models called algorithms may be applied to the data to identify relationships among the variables, such as correlation or causation. In general terms, models may be developed to evaluate a particular variable in the data based on other variable(s) in the data, with some residual error depending on model accuracy (i.e., Data = Model + Error)(来源:Data modeling

简单翻译:数学公式或模型称为算法,可应用于数据以确定变量之间的关系,如相关性或因果关系。在一般情况下,模型开发出来后用于评估一个特定的变量与数据中其他其他变量的关系,根据模型的准确性不同,这些关系中会包含残差(即,数据=模型+错误)

这段描述很明确,统计学在数据建模的过程中,主要用于帮助我们找出变量之间的关系,并对这种关系进行定量的描述,输出可用于数据集的算法。一个好的数据模型,需要通过多次的测试和优化迭代来完成。

综上,给出一个我认为的“数据建模”定义:数据集+商业目标+算法+优化迭代= 数据建模。定义中的每一部分都必不可少。

二、数据模型的建立过程

照例,先上流程图:

数据建模上图的流程颜色对应数据分析全流程,为了方便大家阅读,我把全流程图再贴一次:

数据建模接下来,我重点解读明黄色(浅黄?)部分的内容:

  • 选择变量与重构变量

在进行建模之前,首先要考虑的是使用哪些变量来建立模型,需要从业务逻辑和数据逻辑两个方面来考虑:

业务逻辑:变量基于收集到的数据,而数据在收集时,会产生与业务层面相关的逻辑,比如在汽车参数中,一旦我们定义了“家用轿车”这个类别,那么无论什么品牌什么车型,“轮胎数量(不计备胎)”这个变量就有99%以上几率为4……当然在接下来的建模中,我们不会选择这个变量。这一类情况是业务知识来告诉我们哪些变量可以选择,哪些不能选择。

数据逻辑:通常从数据的完整性、集中度、是否与其他变量强相关(甚至有因果关系)等角度来考虑,比如某个变量在业务上很有价值,但缺失率达到90%,或者一个非布尔值变量却集中于两个值,那么这个时候我们就要考虑,加入这个变量是否对后续分析有价值。

我个人认为,在选择变量时,业务逻辑应该优先于数据逻辑,盖因业务逻辑是从实际情况中自然产生,而建模的结果也要反馈到实际中去,因此选择变量时,业务逻辑重要程度相对更高。

而在变量本身不适合直接拿来建模时,例如调查问卷中的满意度,是汉字的“不满意”“一般”“满意”,那么需要将其重构成“1”(对应不满意)“2”(对应一般)“3”(对应满意)的数字形式,便于后续建模使用。

除这种重构方式之外,将变量进行单独计算(如取均值)和组合计算(如A*B)也是常用的重构方法。其他的重构方法还有很多种,在此不一一阐述。

  • 选择算法

我们在建模时,目标是解决商业问题,而不是为了建模而建模,故此我们需要选择适合的算法。常用建模算法包括相关、聚类、分类(决策树)、时间序列、回归、神经网络等。

以对消费者的建模为例,举一些场景下的常用算法对应:

划分消费者群体:聚类,分类;

购物篮分析:相关,聚类;

购买额预测:回归,时间序列;

满意度调查:回归,聚类,分类;

等等。

确定算法后,要再看一下变量是否满足算法要求,如果不满足,回到选择/重构变量,再来一遍吧。如果满足,进入下一步。

  • 设定参数

算法选定后,需要用数据分析工具进行建模。针对不同的模型,需要调整参数,例如聚类模型中的K-means算法,需要给出希望聚成的类别数量,更进一步需要给出的起始的聚类中心和迭代次数上限。

这些参数在后续测试中会经过多次调整,很少有一次测试成功的情况,因此请做好心理准备。

  • 加载算法与测试结果

算法跑完之后,要根据算法的输出结果来确定该算法是否能够解决问题,比如K-means的结果不好,那么考虑换成系统聚类算法来解决。或者回归模型输出的结果不满足需求,考虑用时间序列来做。

如果不需要换算法,那么就测试一下算法输出的结果是否有提升空间,比如聚类算法中指定聚类结果包含4类人群,但发现其中的两类特征很接近,或者某一类人群没有明显特征,那么可以调整参数后再试。

在不断的调整参数,优化模型过程中,模型的解释能力和实用性会不断的提升。当你认为模型已经能够满足目标需求了,那就可以输出结果了。一个报告,一些规则,一段代码,都可能成为模型的输出。在输出之后,还有最后一步:接收业务人员的反馈,看看模型是否解决了他们的问题,如果没有,回到第一步,再来一次吧少年……

以上,就是建模的一般过程。如果你有些地方觉得比较生涩,难以理解,也没有关系。下一篇专栏中,我将向你们介绍一个具体的数据模型,我会对建模的过程一步步进行拆解,力求简明易懂。

大数据

第二部分:数据建模的应用

我写了个建模的流程,有过建模经验的人自然懂,没有经验的各位也不要着急,这次我以一个真实模型为例,给大家详细讲述建模的各个步骤。照例,先上流程图:

数据建模大家可以看到,这个图是由我之前文章中的两张图拼合而来,而我今天讲的这个真实模型,将把图中所有的流程都走一遍,保证一个步骤都不漏。

Step 0:项目背景

话说这个项目跟我加入百度有直接关系……

2013年的最后一天,我结束了在三亚的假期,准备坐飞机回家,这时候接到一个知乎私信,问我对百度的一个数据科学家(其实就是数据分析师啦)职位是否感兴趣,我立刻回信,定了元旦假期以后去面试。两轮面试过后,面试官——也是我加入百度后的直属Leader——打电话给我,说他们对我的经历很满意,但是需要我给他们一份能体现建模能力的报告。

按说这也不是一件难事,但我翻了翻电脑后发现一个问题:我从上家公司离职时,为了装13,一份跟建模相关的报告文件都没带……最后双方商定,我有一个星期时间来做一份报告,这份报告决定了我是否能加入百度。

那么,是时候展示我的技术了!我的回合,抽卡!

Step 1:目标确定

看看报告的要求:

数据最好是通过抓取得来,需要用到至少一种(除描述统计以外)的建模技术,最好有数据可视化的展示

看来是道开放题,那么自然要选择一个我比较熟悉的领域,因此我选择了……《二手主机游戏交易论坛用户行为分析》

为啥选这个呢?你们看了我那么多的Mario图,自然知道我会选主机游戏领域,但为什么是二手?这要说到我待在国企的最后半年,那时候我一个月忙三天,剩下基本没事干,因此泡在论坛上倒卖了一段时间的二手游戏……

咳咳……总之,目标就确定了:分析某二手主机游戏交易论坛上的帖子,从中得出其用户行为的描述,为用户进行分类,输出洞察报告。

Step 2:数据获取

简单来说,就是用python写了个定向爬虫,抓了某个著名游戏论坛的二手区所有的发帖信息,包括帖子内容、发帖人信息等,基本上就是长这个样子:

数据建模(打码方式比较简单粗暴,请凑合看吧……)

Step 3:数据清洗

这个模型中的数据清洗,主要是洗掉帖子中的无效信息,包括以下两类:

1、论坛由于其特殊性,很多人成交后会把帖子改成《已出》等标题,这一类数据需要删除:

2、有一部分人用直接贴图的方式放求购信息,这部分体现为只抓到图片链接,需要删除。

数据清洗结束了么?其实并没有,后边会再进行一轮清洗……不过到时再说。

Step 4:数据整理

用上面的那些帖子数据其实是跑不出啥结果的,我们需要把数据整理成可以进一步分析的格式。

首先,我们给每条帖子打标签,标签分为三类:行为类型(买 OR 卖 OR 换),目标厂商(微软 OR 索尼 OR 任天堂),目标对象(主机 OR 游戏软件)。打标签模式是”符合关键词—打相应标签“的方法,关键词表样例如下:

数据建模(主机掌机那个标签后来我在实际操作时没有使用)

打完标签之后,会发现有很多帖子没有打上标签,原因有两种:一是关键词没有涵盖所有的产品表述(比如三公主这种昵称),二是有一部分人发的帖子跟买卖游戏无关……

数据建模这让人怎么玩……第二次数据清洗开始,把这部分帖子也洗掉吧。

其次,我们用发帖用户作为视角,输出一份用户的统计表格,里边包含每个用户的发帖数、求购次数、出售次数、交换次数、每一类主机/游戏的行为次数等等,作为后续搭建用户分析模型之用。表格大概长这个样子:

数据建模之后这个表的列数会越来越多,因为数据重构的工作都在此表中进行。

整理之后,我们准备进行描述统计。

Step 5 & 6:描述统计 & 洞察结论

描述统计在这个项目中的意义在于,描述这一社区的二手游戏及主机市场的基本情况,为后续用户模型的建立提供基础信息。

具体如何进行统计就不说了,直接放成品图,分别是从各主机市场份额、用户相互转化情况、地域分布情况进行的洞察。

数据建模数据建模

数据建模Step 7 & 8:选择变量 & 选择算法

因为我要研究的是这些用户与二手交易相关的行为,因此初步选择变量为发帖数量、微软主机拥有台数、索尼主机拥有台数、任天堂主机拥有台数。

算法上面,我们的目标是将用户分群,因此选择聚类,方法选择最简单的K-means算法。

Step 9 & 10:设定参数 & 加载算法

K-means算法除了输入变量以外,还需要设定聚类数,我们先拍脑袋聚个五类吧!

(别笑,实际操作中很多初始参数都是靠拍脑袋得来的,要通过结果来逐步优化)

看看结果:

数据建模数据建模第一类别的用户数跟总体已经很接近了,完全没有区分度啊!

Step 7‘ & 8’ & 9‘ & 10’ & 11:选择变量 & 选择算法 &设定参数 & 加载算法 &重构变量

这一节你看标题都这么长……

既然我们用原始值来聚类的结果不太好,那么我把原始值重构成若干档次,比如发帖1-10的转换为1,10-50的转换为2,依次类推,再聚一次看看结果。

数据建模哦哦!看上去有那么点意思了!不过有一类的数量还是有一点少,我们聚成四类试试:

数据建模哦哦,完美! 我们运气不错,一次变量重构就输出了一个看上去还可以的模型结果,接下来去测试一下吧。

Step 12:结果测试

测试过程中,很重要的一步是要看模型的可解释性,如果可解释性较差,那么打回重做……

接下来,我们看看每一类的统计数据:

数据建模这个表出来以后,基本上可以对我们聚类结果中的每一类人群进行解读了。结果测试通过!

Step 13 & 14 & 15:输出规则 & 模型加载 & 报告撰写

这个模型不用回朔到系统中,因为仅仅是一个我们用来研究的模型而已。因此,输出规则和模型加载两步可以跳过,直接进入报告撰写。

聚类模型的结果可归结为下图:

数据建模眼熟不?在我的第二篇专栏文章第一份数据报告的诞生 – 一个数据分析师的自我修养 中,我用这张图来说明了洞察结论的重要性,现在你们应该知道这张图是如何得来的了。

撰写报告的另外一部分,在描述统计-洞察结论的过程中已经提到了,把两部分放在一次,加上背景、研究方法等内容,就是完整的报告啦!

最后附送几张各类用户发帖内容中的关键词词云图:

数据建模数据建模
那么,这篇文章就到此结束了,最后的最后,公布一下我做这份报告用到的工具:

数据建模大家可以看到,要当一个数据分析师,要用到很多类别的工具,多学一点总是没有坏处的,在此与大家共勉。

来源:http://zhuanlan.zhihu.com/data-analyst-improvement/20256824

关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

一条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据