标签:数据分析

02月09日

创业公司做数据分析

文 | Mr-Bruce 了解“认知心理学”的朋友应该知道:人类对事物的认知,总是由浅入深。然而,每个人思考的深度千差万别,关键在于思考的方式。通过提问三部曲:WHAT->HOW->WHY,可以帮助我们一步步地从事物的表象深入到事物的本质。比如学习一个新的技术框架,需要逐步搞清楚她是什么、如何使用、为什么这样设计,由浅入深。 “WHY+HOW+WHAT”,是笔者最钟爱的一种思维模式。其...

02月03日

如何写好一份数据分析报告

先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。 我认为一份好的分析报告,有以下一些要点: 首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰...

09月27日

2016数据科学从业者薪酬报告

O’Reilly 近日发布了数据科学从业者薪酬报告(2016 Data Science Salary Survey),分析了来自45个国家的近千份调查报告后,针对数据科学从业者使用的工具、薪酬待遇等问题进行了详细分析解读,并从调查结果中得到一些有趣的结论。 比如,Python和Spark成为了对从业者薪酬贡献最高的两大工具;在所有的编程从业者中,每周编程时间越久的人薪水越高;SQL,Excel,R和Python成为了调查...

07月12日

21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。   Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo   正则化是添加一个调优参数的...

07月12日

从数据仓库到大数据,数据系统架构的进化

我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。 那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢? 我们先从两张图来看用户群体的区别。 用户群体之非互联网数据平台用户 企业的boss、运营的需求主要是...

05月07日

上海房价数据分析实战

作者:周宁奕 1.疯狂的春天 年初上海的房价一夜沸腾,到处都是月上涨百万的房子和日跳价十万的交易,以及人满为患的房地产交易中心。上月某日我打开滴滴快车,刚输入虹口,居然发现自动补出“虹口区房地产交易中心”, 而且排名第一…… 数据狗的俺,自然去找分析报告了。但看起来,大多有关地产的数据分析都比较宏观,比如整个深圳的库存和买卖的关系,银行的政策和股市的兴衰对房价的影响,...

04月19日

R语言构建配对交易量化模型

前言 散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢? 我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大部分的市场风险,抓住套利机会,积累小盈利汇聚大收益。 目录 什么是配对交易? 配对交易的模型 用R语言实现配对交易 1. 什么是配对交易? 配对...

03月02日

2016大数据趋势

  编者注:原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面总结了大数据领域的发展态势,分析认为尽管大数据作为一个术语似乎已经过气,但是大数据分析与应用才刚刚开始兴起,在与 AI、人工智能等新兴技术的结合下,大数据的机会也许要比大家想象的还要大。2016年 大数据版图高清版可到此处下载。技术型的高科技创业公司都是喜欢闪闪发光的新东西,而 “大数据” ...

02月24日

商业智能与分析市场剧变:传统BI厂商集体沦陷

摘要: 早在2015年初,Gartner就在《商业智能与分析平台魔力象限》年度报告中说到:“传统BI的市场份额领导者被新型BI厂商打乱。这些新型厂商让更多的人成为了数据分析用户,并创造了更高的商业价值。”经过2015一年的发展 ... 早在2015年初,Gartner就在《商业智能与分析平台魔力象限》年度报告中说到:“传统BI的市场份额领导者被新型BI厂商打乱。这些新型厂商让更多的...

01月14日

使用Python分析社交网络数据

在线社交网站为人们提供了一个构建社会关系网络和互动的平台。每一个人和组织都可以通过社交网站互动、获取信息并发出自己的声音,因而吸引了众多的使用者。作为一个复杂的社会系统,在线社交网站真实地记录了社会网络的增长以及人类传播行为演化。通过抓取并分析在线社交网站的数据,研究者可以迅速地把握人类社交网络行为背后所隐藏的规律、机制乃至一般性的法则。 然而在线社交...

12月31日

如何成为一名优秀的数据分析师

因为在之前的回答里提到,建议希望成为数据分析师的知友们在学习过相关知识以后,做一份自己的数据报告,作为求职的敲门砖,展示已有能力。后来发现,我这个建议自以为干货,但其实犯了“给鸡汤不给勺子”的错误,很多人(>20个)发私信来问我报告到底怎么做……为了不违反我的人生准则之一——给鸡汤必须给勺儿,现在我就来帮初学者们梳理一下数据报告的制作方法。 目录: 一、为...

12月24日

大数据到底有何用?看百度专家如何说

在硬件不挣钱服务挣钱的思想影响下,企业尤其是创业企业越来越重视大数据,企图最后利用大数据挣钱,然而,大数据是一个高高在上的存在,大多企业所做的,仅仅只是收集数据而以,至于后续怎么运用?其实至今还没有一个明确的可复制模式。近日,齐家网在北京组织了一场互联网泛家装论坛,百度资深数据专家吴海山分享了百度LBS大数据的运用,或许能够对大家有所启发。 以下内容根据吴...

12月12日

实时股票分析系统的架构与算法

【编者的话】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀。虽然股票 价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。 本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给...

12月06日

Python数据分析兵器谱

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也 是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本 处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Pyt...

12月06日

数据挖掘在医学上的应用

  数据挖掘,又称知识发现(KDD),是从大量的数据中抽取潜在的、有价值的知识的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中未被发现的知识。例如,数据挖掘可直接挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维...

11月08日

麦肯锡给公司高管定制的机器学习指南

机器学习基于一种算法,该算法从数据中获得学习能力,而无需依靠基于规则的编程。随着数字化的进步和计算能力日趋便宜,使得数据科学家能够停止建造模型,转而训练计算机来进行这一工作,因此机器学习在20世纪90年代晚期作为一门科学学科出现在了大众的视野中。目前全世界瞩目的大数据因其难以管理的巨大数量和复杂性增加了使用机器学习的潜能——以及对机器学习的需求。 2007年...

10月31日

数据分析语言:Python与R的比较

如果你是数据分析领域的新兵,那么你一定很难抉择——在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如“我想学习机器语言,我应该用哪个编程语言”或者“我想快速解决问题,我应该用R还是Python”等这类问题。尽管两个编程语言目前都是数据分析社区的佼佼者,但是它们仍在为成为数据科学家的首选编程语言而战斗。今天,就让我们从数据科学的角度,一步步比...

10月07日

数据化设计思维在阿里系产品的应用

1、做设计为什么还需要看数据? 很多设计师从来不看数据,要么是因为没有数据可看,要么是根本不想看,但是也一样把设计做的很好啊!设计本来就是有感性的一面,为什么非得要和数据扯上关系呢?我们不妨先看看设计的本质是什么。设计不同于纯粹的艺术,艺术源于艺术家对现实的观察和思考,以及对这种观察和思考的自我表达;设计天生就是为别人在做事情,纵然同样需要观察和思考...