转载

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

大数据即服务(BDaaS):大数据行业的下一个热门

大数据指的是那些我们正在创造与存储的、日益增长的信息,还有对这些数据的分析与使用。按照商业意识的概念,大数据特别指代从分析中收集洞见,然后将这些见解应用在实际中以推动业务成长的做法。

在这个时候,BDaaS是一个有些模糊的术语,经常用于描述种种将大数据功能外包到云端的做法,范围从提供数据,到提供用于查询数据的分析工具(经常借助web面板或者控制面板来实现),再到执行实际分析并提供报告。某些BDaaS提供商也会在提供的BDaaS服务中包括咨询与顾问服务。

因此,在许多方面,BDaaS包含被称为软件即服务、平台即服务、数据即服务等等各方面的元素,并将这些元素用于解决大数据中的问题。

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

百度地图的工程师都是如何利用Apache Kylin处理数据的

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20) 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。

对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据单条SQL毫秒到秒级的多维分析查询服务,在技术选型过程中,我们参考了Apache Drill、Presto、Impala、Spark SQL、Apache Kylin等。对于Apache Drill和Presto因生产环境案例较少,考虑到后期遇到问题难以交互讨论,且Apache Drill整体发展不够成熟。对于Impala和Spark SQL,主要基于内存计算,对机器资源要求较高,单条SQL能够满足秒级动态查询响应,但交互页面通常含有多条SQL查询请求,在超大规模数据规模下,动态计算亦难以满足要求。后来,我们关注到了基于MapReduce预计算生成Cube并提供低延迟查询的Apache Kylin解决方案,并于2015年2月左右在生产环境完成了Apache Kylin的首次完整部署。

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区,并于2015年11月正式毕业成为Apache顶级项目。

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

tidyr包更新的三个新特性

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

对于一个数据分析师来说,很可能80%的时间都花在了数据清洗和数据准备上。tidyr包可以很容易的帮助我们“整理”数据,它是reshape2包的进化版。tidyr包目前已更新至0.5.0版本,关于tidyr包的基础用法可以参考我们网站的文章reshape2包的进化版—tidyr包。接下来我将简要介绍0.5.0版本中三个有用的新特性。

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫描关注Datartisan数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!

大数据即服务(BDaaS):大数据行业的下一个热门丨数据工匠简报(6.20)

原文  http://datartisan.com/article/detail/134.html
正文到此结束
Loading...