转载

云栖techday第6期活动小结:数据化运营

  Tech 君从北京邀请了两位大数据的嘉宾来到云栖小镇,2016 年杭州整个冬天都快发霉了,当天难得有太阳,第 6 期的云栖 TechDay 如期举办。

  本期的分享主题《数据化运营》,向磊是来自龙诚健康科技的副总,也是开源项目 EasyHadoop 与 phpHiveAdmin 的作者,对如何构建一个交互式的大数据系统非常有经验,本期他告诉大家,“如何从零开始做一个可视化交互查询系统”,这个过程会有什么技术点值得学习?另外一位是卢亿雷,他是精硕科技(AdMaster)的技术副总兼总架构师,CCF(中国计算学会)大数据专委委员,北航特聘教授,分享了互联网的大数据广告平台是如何构建的?包括如何选型开源大数据平台等过程。 

  如果不喜欢看长文的,Tech 君还准备了视频内容(视频1,视频2),可以慢慢听。下面有 Tech 君宅了一个周末整理的干货哦。

  向磊带来的《构建可视化大数据交互查询平台》的这个议题很吸引人,tech 君记得最早的时候都是通过命令行来提交 Hadoop 的 MR 的任务,现在想想也很汗颜,竟然没想过要写一个 WEB 系统,看来与牛人的差距很大啊。

  向磊一上来就告诉大家大数据的交互查询很重要!很重要!很重要(说三遍)!为什么呢?其实源自一个”懒”, 好的工程师是很懒的,所以产生了 phpHiveAdmin,主要目的就是为了降低自己工作中的重复劳动,实在是不想每天做重复工作。 

  其实主流的开源大数据平台也有很多,而且基本上都提供了 CLI,RESTful 的接口,如果每次执行 Hive 语句都需要登录到 Linux 去执行 Shell,而且这个事情是每天要发生很多次,那还是很痛苦的。更友好的 Web 界面系统会对数据分析人员更友好,交互式的分析工具能大幅的提升效率。 

  向磊分别从 Hadoop、Spark 等常见的开源系统上去介绍如何设计一个交互式的数据分析平台,对过程中会面临的一些困难和技巧都做了详细的介绍,其实设计这样的平台,思路都差不多,但是前提是你要了解这些平台的哪些接口是可以使用的,并且最关键的是如何使用。

  大家也比较关心开发一个平台需要多少人?向磊很自信的说:“一个就够了!”,前提是他 Full Stack 的,并且是一个很全面的工程师。不过呢,现在开源的项目也比较多,公司里当然是建议用社区成熟或者商业的分析系统。但对于想设计大数据分析系统的工程师来讲,了解大数据系统的接口、API,并做一个交互式分析原型,何尝不是一个很 Cool 的学习方式? 
 
  第二位嘉宾卢亿雷分享了来自《大数据技术之计算广告案例分析》,讲述了 AdMaster 如何用开源的系统搭建一个广告系统。现代广告系统采集了每个人的行为数据,通过机器学习,对我们每个人“绘制画像”,听起来现在的广告系统比我自己更了解我自己啊……

  期间 AdMaster 团队对常见的大数据系统做了很多的选型,从性能、社区活跃度、稳定性进行了深度的测试,测试的数据集都是达到千亿条记录。有个挺有意思的点,就是 Cassandra 在海外的流行程度比 Hbase 高很多,原因是更易用,社区也更活跃,这个与我们国内的情况略有不同,淘宝、小米都是 HBase 的大客户。 

  AdMaster 最终采用了 ElasticSearch 作为其中的一个数据查询系统,这个系统现在很稳定的运行,每天请求达到 100 亿,每天增长 5TB 的数据, ElasticSearch 的稳定性、可扩展性方面都得到了验证,开源软件的质量真是一流。 

  最后还分享了数字营销的案例,广告主可以与 AdMaster 通过数据混合的模式,通过安全的第三方平台来整合数据,保证数据的隐私和安全性的前提下,来提升投放的精准度,这才是 DT 时代的最好诠释,真正让企业的沉睡数据变成动力源。 

正文到此结束
Loading...