转载

Apache Spark 的持续增长

这周，快速发展的Apache Spark社区在纽约聚集，为了庆祝成为当今最受欢迎的开源项目之一。

2009年，Spark项目在UC伯克利的AMPLab启动，在过去的一年半里，Apache Spark迅速流行起来。在2014年，Spark已经拥有超过465名的代码贡献者，使得它成为Apache Software Fundation中以及关于大数据开源项目中最活跃的项目。

早些时候，我们主要依赖于自己的集群计算平台，而不是像在scratch平台上编写自己的软件。

Spark基于内存和并行处理的能力使得它在运行项目时比hadoop MapReduce在内存中计算快100倍，在硬盘数据处理上快10倍，这使得大量的数据可以一次性协作处理。

根据 Gartner 的调查, 73% 的组织会在 2016 年投资大数据，不过目前它们中的多数都无法实现该承诺，因为它们没法处理（后文丢失？）

Spark 现在已是广为人知。它在 2014 Gray Sort Benchmark 排序大赛中的 Daytona 100TB 组赢得奖项，并创造了新的排序世界纪录。

除了对大数据的处理之外，Spark 还拥有其他好处，比如兼容 Hadoop，简化主流语言（Java，Python，Scala 和 SQL）下的接口编程，支持结构化和非结构化数据，机器学习以及数据挖掘。

与 Spark 进行深度集成的企业应用，可以执行大规模的跨部门的数据遍历和处理，这种方式在以前是不可想象的。有了这种技术，我们可以轻松浏览企业内部各处的数据，即使新的数据聚合得越来越多。

按行业划分早期使用者

按行业划分Spark的早期使用者包括消费性包装品(CPG),保险、媒体、娱乐、制药、零售商和汽车行业，基本上包括所有焦点集中在用户的行业。

在消费性包装品(CPG)行业的用户分析为Spark呈现出一个理想的案例。获取用户的见解和动机对消费性包装品(CPG)行业高管来说是最重要的。大部分传统行业仅限于从几个不同的来源获取孤立的产品和用户信息。然而，快速理解用户反馈对在线产品销售、线上线下结合趋势以及基于地理位置差异来对来用户做一个更好的理解，这样将最终带来更好的销售。

快速周期分析和更快速的洞察力提供一个接近实时的视图，它最大化地提供了本地销售的供应链信息。混合的异构数据集来源于诸如ERP和供应链系统，连同像Dun & Bradstreet这样的扩展数据帮助发现更深层次的消费者需求。在访问速度上，可以收敛和分析更多私人信息，收获更多优质的数据源，品牌经理获得了更多的操作性，整体上观察可以更快地看到每日的分析，协同决策。

同样地，数据正驱动着医疗和医药行业，更快和更全面地提升诊断到治疗的速度曲线。Apache Spark的使用让用户们处理更大容量的数据而不用延误，关联数据对的系统模式更新医院护理人员对任何致命疾病的诊断。这个早期预警系统不仅仅挽救了生命，还通过节省药物减少了在医药上的花费，还有实验室测试和其他花费。

尽管Spark获得了很多关注，我还是需要谨记开放，分布式计算框架仍然是一个复杂的巨兽。一个纯净的基于Spark的应用需要很宽泛的技能，也需要掌握大量的细节，还要很强的动手能力去创建和维护一个完全的解决方案去解决任何特定的问题集合。

进化版的Spark项目意味着在企业级数据智能上的创新并聚焦于：