转载

Hadoop Summit 2016会场回顾（二）

2016年4月13日，都柏林的Liffey河畔，Hadoop Summit 2016在Convention会展中心盛大开幕。大会主要议程历时2天，有100多场演讲，与会者超过1400人。主要内容包括Apache Committer洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop未来几大系列。本文就数据科学、数据商务、物联网这三方面的一些内容做一个简单回顾。

It's Not the Size of Your Cluster, It's How You Use It 演讲

由Big Fish Games的David Darden和Don Smith带来。介绍Big Fish从零开始上线Hadoop的过程，尤其是如何获得业务支持，启动庞大的技术工程。对那些受困于大数据项目启动成本的听众很有启发。在Big Fish，Hadoop集群主要用于入口分析、用户行为探索、以及分流计算压力。如何获得初始投资一直是个大问题。经验是保持良好沟通，明确地告知用户技术能做到什么（不能做到什么），然后等待，直到大量业务需求积累，推动技术项目启动。尽量用业务项目预算来覆盖技术基础设施投资。专注关键业务，高速迭代开发，尽早展示商业价值，获得用户认可从而推动下一轮投资。另外试图预测外来是行不通的，Hadoop技术的发展常常快于公司的计划，试图满足所有的用户需求也是不可能的，目前还没有能搞定一切需求的万能大数据技术。

MLLeap: Or How to Productionize Data Science Workflows using Spark 演讲

Hadoop Summit 2016会场回顾（二）

由TrueCar的Mikhail Semeniuk和Hollin Wilkins带来。MLeap的关键特性是能在Spark上训练机器学习模型，但又没有对Spark API的依赖，做到了模型和运行库的轻量化，能在物联网的各种微小设备上运行。MLeap包括核心、运行库、Spark集成和序列化几个部分。核心包含线性代数、特征提取、线性回归、分类器等通用工具。运行库包含LeapFrame(类似DataFrame)和MLeap Transformer。MLeap Transformer（非常类似Spark Transformer，有一对一的关系)用核心提供的类库转换LeapFrame，完成训练。Spark集成提供从Spark Transformer到MLeap Transformer的方便转换。序列化相当灵活，支持JSON或者Protobuf。提供了一个测试报告，显示MLeap Transform比Spark Transform快1000倍。这个比较有明显的不公平，因为逐条记录运行，Spark Transform对每一条记录都会重复一个初始化的过程，好比每个微批次都只有一条记录。当场演示了从简单的模型训练到部署的全过程，训练后的模型可以方便的发布在MLeap API Rest Server上使用。未来工作包括核心类库向Spark全面靠拢，统一API，支持所有的Spark Transformer，支持Python/R的接口，以及部署在非JVM的嵌入式设备运行。

Hadoop and Friends as Key Enabler of the IoE – Continental ' s Dynamic eHorizon 演讲

Hadoop Summit 2016会场回顾（二）

来自Dr. Thomas Beer, Continental Automotive。这是非常有趣的一个大数据、机器学习和汽车一体的应用。Thomas博士介绍了他们的Learning Map原型，利用每一辆汽车作路况信息采集，汇总到云端做机器学习，最后汇总生成精确的路况地图发送回每一辆汽车，从而实现自动驾驶。数据采集从每辆汽车开始，采集的数据不是原始图片，而是经过简单特征提取和加工的数据包，每条采集的信息大约100KB左右，通过安全网关送到云端。云端的数据导入用Storm和Kafka完成，数据验证和清洗用Spark，结果数据仓库保存为Hadoop Sequence文件。地图学习运行在Spark上，暂时每天执行两次，生成的地图保存在Amazon S3，再通过安全网关发还给每辆汽车。基础架构方面，现在原型系统主要是在Amazon上自行搭建的Hadoop，正在考虑向PaaS过度，比如使用Elastic MapReduce执行机器学习任务，将大大减少机器上线时间从而节省成本。

Hadoop and Other Animals演讲

Hadoop Summit 2016会场回顾（二）

来自Matthew Aslett, 451 Research。演讲从到底什么是Hadoop说起，有狭义和广义两种理解。狭义指Apache Hadoop开源项目本身，由HDFS、YARN、MapReduce三部分组成的核心。而广义来说，Hadoop生态系统不仅仅是那只黄色的小象，而是以它为中心的整个动物园！Hadoop生态系统经过多年的发展，俨然已经成为大数据平台的事实标准，被世界范围内几乎所有的高科技公司一致采用（Google大概是唯一的例外）。其底层由HDFS和YARN组成集群操作系统，之上有如MapReduce和Spark的运算框架，有如HBase和Phoenix的数据管理，有如Zookeeper和Oozie的协作模块，有如Hive和Kylin的数据分析，有如Storm和Spark Streaming的流式处理，有如Mahout和Spark ML的机器学习，有如Ranger和Eagle的安全监控等等。其覆盖大数据从采集到存储，从运算到分析，从安全到监控，无所不包，无所不有。如此强大的生态系统，已经完成了对大数据技术的事实垄断。与其从功能上来细分Hadoop的各种模块（如核心、流处理、数据库、分析工具等等），倒不如从用户角度来看整个Hadoop家族能提供什么样的解决方案，也许是个更好的方法。

作者介绍 ：李扬，Kyligence联合创始人兼CTO，Apache Kylin联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人，专注于大数据分析，并行计算，数据索引，关系数学，近似算法，压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人，负责Hadoop开源产品架构，“杰出技术贡献奖”的获奖者、摩根士丹利副总裁，负责全球监管报表基础架构。

原文 http://www.infoq.com/cn/news/2016/04/Hadoop-Summit-2016-part2

正文到此结束