标签:数据科学

03月29日

为什么很多大数据项目搞着搞着就黄了?

大数据正在改变世界。但是,大多数大数据项目搞着搞着就黄了,很难成功。这是为什么呢? 企业正努力在产品中部署大数据,这一点是毋庸置疑的。但是,根据Gartner在2016年下半年发布的新闻稿:只有15%的企业将其大数据项目部署到生产中。”Gartner在选词时非常谨慎,这并不意味着剩下的企业没有实践,或者数据科学家没有发现使用大数据技术的优势,只是剩下的85%的项目并没有真正投...

11月05日

Kaggle 发布首份数据科学从业报告 | 中国数据科学家平均年薪不及美国同行1/3

Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月 8 日,这家机构被谷歌收购,6 月 6 日又宣布用户数量超过了 100 万人。互联网创业方兴未艾,人工智能的浪潮又接踵而来,而贯穿其中的数据科学则在这更迭交替中显得愈发重要。 最近,这一社区首次进行了机器学习/数据科学现状调查。在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggl...

09月12日

详解AI公司三大类别,哪种商业模式将成为最后赢家?

从Element AI,Databricks到DigitalGenius,AI型公司铺天盖地席卷而来。各类公司分化出了不同的特性,也选择了不同的战略发展方向。 在他们中,我们能够看到为客户提供定制解决方案的“数据科学咨询公司”,为AI解决方案提供底层基础构架的“AI平台公司”,以及通过产品化解决方案解决某个特定商业问题的“垂直整合AI公司”。 在我看来,能够突破这一三足鼎立的局面笑到最后的,应当是...

04月24日

大数据到底怎么学:数据科学概论与大数据学习误区

“数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较...

04月14日

如何在 Kaggle 首战中进入前 10%

Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~ 5%)。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外,还会显示的就是 Prize Winner,10% 或是 25% 这三档。所以刚刚接触 Kaggle 的人很多都会以 25% 或是 10% ...

04月01日

解读:什么是数据科学?如何把数据变成产品?

作者|麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术、企业和独特技能集合。 互联网上充斥着“数据驱动的应用”。几乎...

02月09日

数据工程师的崛起

  2011的时候年我以商业智能工程师的身份加入脸书(Facebook),但在13年离开时我的职位却是数据工程师。这期间我并没有升职也没有被调到一个新职位上,我只是意识到我们的工作已经超越了传统商业智能的范畴,并且我们为自己创造的这个角色属于一个全新的领域。 由于我的团队处在这种转变的最前沿,我们正在培养新的技能、新的做事风格、开发新工具,并基本放弃了旧有的方...

01月06日

从商业视角理解数据:数据科学家的思维之路

在过去的几个月内,来自不同行业人不约而同问我能否提供一个端到端的视图,使他们了解成为一个数据科学家的思维过程。为这个问题寻找答案时,我想的不仅仅是提供一个端到端的视图过程,而是面对一个分析问题时我们应该更深入的了解他/她是怎么想的。 接下来我将分五个板块带领大家体验数据科学家的思维之路。文章的前半部分将介绍数据科学家如何进行任务的公式化建模以及数据点的工...

11月01日

KDnuggets :数据科学家最常用的十种算法

最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。 哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的? 这是基于 844 个投票者的结果 排名前十的算法以及他们的投票者的比例分布如下: 图 1 :数据科学家使用度最高的 10 大算法 文末有全部算法的...

10月11日

Airbnb:如何由内而外实现数据驱动

虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于“精准定位”于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策。不论是开发可持续利用的开源工具还是奋力改进数据科学部门的多样性,Airbnb数据科学团队负责人Alok很清楚,Airbnb追求的事都要贯彻这两个原则。 ◆ ◆ ◆ 超级增长:短短几年,从5到70+数据科学家 在2013年,Airbnb只有一个5人数据科学团队,...

09月27日

2016数据科学从业者薪酬报告

O’Reilly 近日发布了数据科学从业者薪酬报告(2016 Data Science Salary Survey),分析了来自45个国家的近千份调查报告后,针对数据科学从业者使用的工具、薪酬待遇等问题进行了详细分析解读,并从调查结果中得到一些有趣的结论。 比如,Python和Spark成为了对从业者薪酬贡献最高的两大工具;在所有的编程从业者中,每周编程时间越久的人薪水越高;SQL,Excel,R和Python成为了调查...

07月12日

21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。   Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo   正则化是添加一个调优参数的...

05月19日

吴甘沙:大数据分析师的卓越之道

亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不一定真懂了,所以请大家以批判的方式去理解。 这是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处理,左边是数据处理,右边价值输出。连接数据和价值之间的是知识发现,用专业词汇讲,知识就...

02月24日

引力波的发现离不开大数据分析,Python全栈式数据科学语言功不可没

《引力波研究,正在数据科学中御风冲浪》 软件正在吞噬这个世界。从律师到医生,AI(人工智能)正在许多专业领域攻坚拔寨。现在,又轮到科学家来面对人工智能的挑战和机遇了。LIGO(激光干涉引力波天文台)探测到引力波的消息抢占了世界各地的新闻头条。这一发现也理所应当地被认为是爱因斯坦广义相对论的一个伟大胜利。我们用了100年时间才终于开发出了验证爱因斯坦预言的实验。然...

10月31日

数据分析语言:Python与R的比较

如果你是数据分析领域的新兵,那么你一定很难抉择——在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如“我想学习机器语言,我应该用哪个编程语言”或者“我想快速解决问题,我应该用R还是Python”等这类问题。尽管两个编程语言目前都是数据分析社区的佼佼者,但是它们仍在为成为数据科学家的首选编程语言而战斗。今天,就让我们从数据科学的角度,一步步比...

10月26日

SparkR:数据科学家的新利器

R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数据集进行分析和处理。...

10月07日

硅谷观察之大数据篇

  硅谷的这一个月,我在 startups demo days 和各种大公司一日游中度日,以为会逃脱国内各种会上各种 “大数据” 和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。 什么是 “改变世界” 的大数据公司 近两周硅谷两场规模比较大的 demo 大会上,就有十多家自称做大数据的 startups,有做消费者...