转载

2015 Bossie评选：最佳的10款开源大数据工具

　　英文原文：Bossie Awards 2015: The best open source big data tools

　　Bossie 奖是知名英文 IT 网站 InfoWorld 针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象。本次 InfoWorld 评选出了 22 款最佳的开源大数据工具，像 Spark、Storm 都名列榜单之上。

　　InfoWorld 在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了 2015 年的开源工具获奖者，下面我们来简单介绍下这些获奖的技术工具。

　　1. Spark

2015 Bossie评选：最佳的10款开源大数据工具

　　在 Apache 的大数据项目中，Spark 是最火的一个，特别是像 IBM 这样的重量级贡献者的深入参与，使得 Spark 的发展和进步速度飞快。

　　与 Spark 产生最甜蜜的火花点仍然是在机器学习领域。去年以来 DataFrames API 取代 SchemaRDD API，类似于R和 Pandas 的发现，使数据访问比原始 RDD 接口更简单。

　　Spark 的新发展中也有新的为建立可重复的机器学习的工作流程，可扩展和可优化的支持各种存储格式，更简单的接口来访问机器学习算法，改进的集群资源的监控和任务跟踪。

　　在 Spark1.5 的默认情况下，TungSten 内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。最后，新的 spark-packages.org 网站上有超过 100 个第三方贡献的链接库扩展，增加了许多有用的功能。

　　2. Storm

2015 Bossie评选：最佳的10款开源大数据工具

　　Storm 是 Apache 项目中的一个分布式计算框架项目，主要应用于流式数据实时处理领域。他基于低延时交互模式理念，以应对复杂的事件处理需求。和 Spark 不同，Storm 可以进行单点随机处理，而不仅仅是微批量任务，并且对内存的需求更低。在我的经验中，他对于流式数据处理更有优势，特别是当两个数据源之间的数据快速传输过程中，需要对数据进行快速处理的场景。

　　Spark 掩盖了很多 Storm 的光芒，但其实 Spark 在很多流失数据处理的应用场景中并不适合。Storm 经常和 Apache Kafka 一起配合使用。

　　3. H2O

2015 Bossie评选：最佳的10款开源大数据工具

　　H2O 是一种分布式的内存处理引擎用于机器学习，它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言，3.0 版本开始支持 Python 和 Java 语言，同时它也可以作为 Spark 在后端的执行引擎。

　　使用 H2O 的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如 REST API 与 H2O 集群通讯，H2O 来处理大量的数据工作。

　　几个有用的R扩展包，如 ddply 已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在 EC2 上运行 H2O，或者 Hadoop 集群/YARN 集群，或者 Docker 容器。用苏打水（Spark+ H2O）你可以访问在集群上并行的访问 Spark RDDS，在数据帧被 Spark 处理后。再传递给一个 H2O 的机器学习算法。

　　4. Apex

2015 Bossie评选：最佳的10款开源大数据工具

　　Apex 是一个企业级的大数据动态处理平台，即能够支持即时的流式数据处理，也可以支持批量数据处理。它可以是一个 YARN 的原生程序，能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性（精确一次处理、最少一次、最多一次）

　　以前 DataTorrent 公司开发的基于 Apex 的商业处理软件，其代码、文档及架构设计显示，Apex 在支持 DevOps 方面能够把应用开发清楚的分离，用户代码通常不需要知道他在一个流媒体处理集群中运行。

　　Malhar 是一个相关项目，提供超过 300 种常用的实现共同的业务逻辑的应用程序模板。Malhar 的链接库可以显著的减少开发 Apex 应用程序的时间，并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制，以满足个人业务的要求。所有的 malhar 组件都是 Apache 许可下使用。

　　5. Druid

2015 Bossie评选：最佳的10款开源大数据工具

　　Druid 在今年二月转为了商业友好的 Apache 许可证，是一个基于“事件流的混合引擎，能够满足 OLAP 解决方案。最初他主要应用于广告市场的在线数据处理领域，德鲁伊可以让用户基于时间序列数据做任意和互动的分析。一些关键的功能包括低延迟事件处理，快速聚合，近似和精确的计算。

　　Druid 的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理（JVM）节点来处理，最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点，给用户一个完整的事件信息。测试表明 50 万事件数据能够在一秒内处理完成，并且每秒处理能力可以达到 100 万的峰值，Druid 作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

　　6. Flink

2015 Bossie评选：最佳的10款开源大数据工具

　　Flink 的核心是一个事件流数据流引擎。虽然表面上类似 Spark，实际上 Flink 是采用不同的内存中处理方法的。首先，Flink 从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况，Flink 提供了 API 来应对不同的应用场景，无论是 API（批处理）和数据流 API。MapReduce 的世界的开发者们在面对 DataSet 处理 API 时应该有宾至如归的感觉，并且将应用程序移植到 Flink 非常容易。在许多方面，Flink 和 Spark 一样，其的简洁性和一致性使他广受欢迎。像 Spark 一样，Flink 是用 Scala 写的。

　　7. Elasticsearch

2015 Bossie评选：最佳的10款开源大数据工具

　　Elasticsearch 是基于 Apache Lucene 搜索分布式文件服务器。它的核心，Elasticsearch 基于 JSON 格式的近乎实时的构建了数据索引，能够实现快速全文检索功能。结合开源 Kibana BI 显示工具，您可以创建令人印象深刻的数据可视化界面。

　　Elasticsearch 易于设置和扩展，他能够自动根据需要使用新的硬件来进行分片。他的查询语法和 SQL 不太一样，但它也是大家很熟悉的 JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生 JSON-over-HTTP 接口或常用的几个开发语言进行交互，包括 Ruby，Python，PHP，Perl，Java，JavaScript 等。

　　8. SlamData

2015 Bossie评选：最佳的10款开源大数据工具

　　如果你正在寻找一个用户友好的工具，能理解最新流行的 NoSQL 数据的可视化工具，那么你应该看一看 SlamData。SlamData 允许您用熟悉的 SQL 语法来进行 JSON 数据的嵌套查询，不需要转换或语法改造。

　　该技术的主要特点之一是它的连接器。从 MongoDB，HBase，Cassandra 和 Apache 的 Spark，SlamData 同大多数业界标准的外部数据源可以方便的进行整合，并进行数据转换和分析数据。你可能会问：“我不会有更好的数据池或数据仓库工具吗？请认清这是在 NoSQL 领域。

　　9. Drill

2015 Bossie评选：最佳的10款开源大数据工具

　　Drill 是一种用于大型数据集的交互分析的分布式系统，由谷歌的 Dremel 催生。Drill 专为嵌套数据的低延迟分析设计，它有一个明确的设计目标，灵活的扩展到 10000 台服务器来处理查询记录数据，并支持兆级别的数据记录。

　　嵌套的数据可以从各种数据源获得的（如 HDFS，HBase，Amazon S3，和 Blobs）和多种格式（包括 JSON，Avro，和 buffers），你不需要在读取时指定一个模式（“读时模式”）。

　　Drill 使用 ANSI 2003 SQL 的查询语言为基础，所以数据工程师是没有学习压力的，它允许你连接查询数据并跨多个数据源（例如，连接 HBase 表和在 HDFS 中的日志）。最后，Drill 提供了基于 ODBC 和 JDBC 接口以和你所喜欢的 BI 工具对接。

　　10. HBASE

2015 Bossie评选：最佳的10款开源大数据工具

　　HBase 在今年的里程碑达到 1.X 版本并持续改善。像其他的非关系型的分布式数据存储一样，HBase 的查询结果反馈非常迅速，因此擅长的是经常用于后台搜索引擎，如易趣网，博科和雅虎等网站。作为一个稳定的、成熟的软件产品，HBase 新鲜的功能并不是经常出现，但这种稳定性往往是企业最关心的。

　　最近的改进包括增加区域服务器改进高可用性，滚动升级支持，和 YARN 的兼容性提升。在他的特性更新方面包括扫描器更新，保证提高性能，使用 HBase 作为流媒体应用像 Storm 和 Spark 持久存储的能力。HBase 也可以通过 Phoenix 项目来支持 SQL 查询，其 SQL 兼容性在稳步提高。Phoenix 最近增加了一个 Spark 连接器，添加了自定义函数的功能。

　　第 11—20 名分别是：