标签:数据挖掘

10月29日

大数据在人工智能领域的应用浅谈

最近非常热门的人工智能,其显著特点是由计算机完成大量的科学和工程计算,比人脑做得更快、更准确。人工智能的核心是计算机不断从经验中获取知识,学习策略,在遇到类似的问题时,运用经验知识解决问题并积累新的经验,就像普通人一样。经验越多,越有利于人工智能解决问题的能力提升。经验本质上就是数据,数据的量很大时就需要用大数据技术来处理,因此人工智能离不开大数据技术。 ...

05月16日

Kaggle 数据挖掘竞赛经验分享

文|陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与...

03月27日

张志华:机器学习的发展历程及启示

近年来,人工智能的强势崛起,特别是AlphaGo和韩国九段棋手李世石的人机大战,让我们领略到了人工智能技术的巨大潜力。数据是载体,智能是目标,而机器学习是从数据通往智能的技术途径。因此,机器学习是数据科学的核心,是现代人工智能的本质。 通俗地说,机器学习就是从数据中挖掘出有价值的信息。数据本身是无意识的,它不能自动呈现出有用的信息。怎样才能找出有价值的东西呢?...

08月23日

说说敏捷大数据

为什么提出敏捷大数据,先来看看大数据应用的终极目标,我以前的文章有讲到,大数据分析的成功普及将是传统信息化的终点,换句话说信息化走向智能化之后,整个高科技相关的产业链(包括传统产业)会产生质的变化。大数据应用的终极目标是:面向过去,发现数据规律-通过描述性分析,归纳已知;面向未来,预测数据趋势-通过深度挖掘分析,预测未知;最终通过大数据分析提高对事物的理...

07月28日

企业大数据应用三段论

随着云计算、物联网和开源大数据技术生态的高速发展,企业获得大数据相关基础设施技术和服务越来越容易。虽然现阶段大数据成熟应用多在互联网公司,但我们需认识到,一方面,大数据应用是非常碎片化的,这个碎片化包括业务层面和技术层面,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数...

07月12日

从数据仓库到大数据,数据系统架构的进化

我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。 那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢? 我们先从两张图来看用户群体的区别。 用户群体之非互联网数据平台用户 企业的boss、运营的需求主要是...

05月23日

大数据技术初探

从前些年到现在所谓的大数据时代,移动互联网、物联网、云计算、人工智能、机器人、大数据等前沿信息技术领域,逐个火了一遍,但什么是大数据,大数据的技术范畴包括那些,估计很多人都是根据自己所熟悉的领域在盲人摸象。下文从DT(Data technology,数据技术)技术泛型角度来简要地介绍什么是大数据,包括那些核心技术,各领域之间的关系等:首先我们说说机器学习,机器学习(ma...

05月19日

吴甘沙:大数据分析师的卓越之道

亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不一定真懂了,所以请大家以批判的方式去理解。 这是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处理,左边是数据处理,右边价值输出。连接数据和价值之间的是知识发现,用专业词汇讲,知识就...

05月10日

分析1300万起案件 洛杉矶警局如何用算法预测犯罪

摘要: 洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点,用算法预测并制止犯罪行为。众所周知,在某个具体区域内,犯罪地点并不是随机分布的,而是集中于某些小范围的“热点地区”。比如,西雅图历时14年收集的犯罪数据表明,有一半的犯罪行为都集中在占该市4.5%的街道上。明...

05月03日

适合实时数据分析的应用领域分析

如今整个商业世界都面临着新的难题,即如何处理来自各客户接触点、交易以及互动对象的大量数据。但与此同时,我们也看到了解决问题的曙光——实时数据流技术,其能够存储大量数值及历史数据,以备日后随时调用。 可能很多朋友还没有接触过大数据分析方案,也有人认为其仅仅算是个愿景而非现实——毕竟能够证明其可行性与实际效果的案例确实相对有限。但可以肯定的是,实时数据流中包含...

04月19日

百度如何利用Apache Kylin处理大数据多维分析

本文将以实践经验具体分析Apache Kylin在百度地图的应用,并给项目实践实例。 1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。 对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11...

04月19日

R语言构建配对交易量化模型

前言 散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢? 我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大部分的市场风险,抓住套利机会,积累小盈利汇聚大收益。 目录 什么是配对交易? 配对交易的模型 用R语言实现配对交易 1. 什么是配对交易? 配对...

04月19日

你们是不是很缺大数据工程师?

缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我啦。 所以,有些东西、有些想法我还是愿意分享出来的,畅所欲言吧~~ 1.我眼中的大数据现状 其实个人在大数据在...

02月24日

大数据能走多远?

大数据很火,但很明显炒作过热,至少现阶段看来是这样。一帮媒体人炒作起来的概念,有其局限性,很多人抱着个统计表就满口大数据,实在是不严谨。大数据的本质是通过数据分析获得有价值信息的能力,大数据也好,小数据也好,怎么通过数据获得有价值的信息,获得洞察力才是关键。而且大数据这个词本身只是陈述了一种状态,数据量很大而已,要获取有价值的信息,就需要对大数据进行分析...

01月14日

机器学习算法一览

大数据文摘愿意为读者打造高质量【机器学习讨论群】,措施如下 (1)群内定期组织分享 (2)确保群内分享者和学习者数量适合,有分享能力者不限名额,学习者数量少于分享者,按申请顺序排序。 点击文末“阅读原文”填表入群 引言 提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个...

12月06日

Python数据分析兵器谱

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也 是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本 处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Pyt...

12月06日

数据挖掘在医学上的应用

  数据挖掘,又称知识发现(KDD),是从大量的数据中抽取潜在的、有价值的知识的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中未被发现的知识。例如,数据挖掘可直接挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维...

10月31日

数据分析语言:Python与R的比较

如果你是数据分析领域的新兵,那么你一定很难抉择——在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如“我想学习机器语言,我应该用哪个编程语言”或者“我想快速解决问题,我应该用R还是Python”等这类问题。尽管两个编程语言目前都是数据分析社区的佼佼者,但是它们仍在为成为数据科学家的首选编程语言而战斗。今天,就让我们从数据科学的角度,一步步比...