转载

专访宝立明：万流归一，谈Teradata的开放之路

2014年，Apache Spark无疑是大家讨论最多的开源大数据平台，它通过集成流计算、图计算、机器学习等组件以获得更广泛的使用场景，时下已获得Cloudera、Hortonworks、Intel、Datastax、MapR、Pivotal等众多公司的支持。因此，在Spark飞速发展的当下，Teradata提出的以统一数据架构（UDA）实现对开源技术和方案的融合，这种思路到底是“现实需求中产生的开放”，还是在“重造车轮”呢？

然而，在2015 Teradata大数据峰会之行后，笔者了解到Teradata针对开源的战略，也了解到Teradata支持开源的方式——通过Teradata统一数据架构（Unified Data Architecture，UDA）打造一个开放的框架，在提供了核心的业务功能之外，让用户可以便捷地将各种开源或者商业解决方案集成到平台框架内。在对Teradata 天睿公司首席技术官宝立明（Stephen Brobst）的专访中，笔者对Teradata的设计思想有了更清晰的认识。

开放，博众所长后的竞争力

在我看来，没有任何一个技术可以完美地完成所有事情，所以如果一定要什么都做的话，最终可能一无所长——宝立明。

当谈到了与其他竞争对手的对比，宝立明在专访中表示，市场上存在堆栈式和深挖核心两种策略；前者试图尝试一切，包括应用、ETI、商业智能、数据库、硬件等而后者则是深挖擅长领域，通过一个开放的途径，让更擅长其他领域的伙计们来更出色地完善你的产品，这才是真正的竞争力。

从结构化数据到非结构化数据，四海皆准的技术已不可求，大数据的分析需求促成了单一数据库到生态系统的转变，单平台多系统已势不可挡——宝立明。

需求是产业发展的核心动力，而在这个转变的过程中，宝立明先生看到一个非常好的趋势已经形成——机构开始采用开源架构。其中，Teradata率先在业界将开源Unix和Linux结构应用到数据库平台上。现在看起来可能“习以为常”，但在当时却是一个非常大胆的举动。坚持开放一直契合于Teradata的战略，通过实现互通、互操作，在深挖擅长领域的同时，通过Teradata统一数据架构更对任何第三方敞开，包括商业软件，也包括开源系统。

同时，我们还了解到，从真正已经从大数据获得洞察的机构来看，某些机构通常会拥有3个以上的系统，这些绝对不是简单的一个Hadoop能做到的。

开放，Teradata支持开源的方式

搜索一下“Stephen Brobst”，我们很简单地就发现Stephen是一个不折不扣的开源拥护者。然而令笔者费解的是，Teradata首先不是一个商业化的开源技术的公司，也并非技术社区上的最大贡献者，那Teradata对开源的支持从何而来。被问及这一点时，Stephen给出了多个令人信服的回答：

Hadoop相关。 通过Teradata的专利技术QueryGrid，用户可以实现开源Hadoop系统与商业技术之间的互通性。这些商业技术既包括Teradata自己的产品，如Teradata数据仓库、Teradata Aster大数据探索平台，也包括第三方的数据库产品，如SAS以及Oracle的产品。同时，Teradata还提供了Hadoop仪表盘功能，即在Hadoop文件系统上添加一个仪表盘的能力，使得流数据能够进入到Hadoop，然后对它进行部署。此外，Teradata还收购了Loom Technology，推出了Teradata Loom技术，实现数据扰动，这也是Teradata在Hadoop文件系统之上所新部署的功能。

机器学习相关。 Teradata同样打通了机器学习相关的开源技术，比如Spark MLlib和Apache Mahout，更提供了简单的R和SAS操作机器学习的可能。

流计算相关。 Teradata仍然提供了商业数据库与开源技术的融合。就流处理而言，Teradata建立了一个Listener的框架，客户可以将流处理即插即入到这个框架中，可以充分利用Kafka、Spark、Apache Storm等。另外，Teradata还拥有消息排队、消息总线等功能。

当然，大数据分析中还有一个不可或缺的就是图计算，不过正如宝立明所述，这也是Teradata自己的深挖领域，暂时还没考虑到打通开源。

即便如此，我们也理解了Teradata对开源的支持方式—— 对比某个技术上的提升，Teradata的方式是在自己平台上提供开源技术的接口，从而加速各种技术的落地和发展，让机构利用开源起来也更加地有信心。

收购，更丰富生态系统的形成

如上所述，Teradata的观点一直是将事情交给更专业的人去做。因此，仅2014年，Teradata就收购了4家大数据公司，其中包括Revelytix、Hadapt、Think Big Analytics以及RainStor，而这一切都是为了打造一个更有竞争力的生态系统。

宝立明说： “我们所打造的生态系统称为Teradata统一数据架构，这一生态系统涉及到三种应用：第一种就是“数据湖”或者“数据水库”，主要用于捕获原始数据，包括结构性和非结构性的数据，然后再在UDA架构中进行数据资料的分析；第二种就是整合型数据仓库，这实际上也是Teradata公司的核心产品；第三种就是我们的探索发现平台，这个是Aster的主要功能。我们将SQL和非SQL集合在一起，包括图形和文本等都能在这一平台上进行分析。这三个应用就是通过QueryGrid实现互通和互操作的。”

Teradata收购Hadoop技术的主要目的是让QueryGrid更加有效，让Teradata的互通能力变得更加有效。而Loom Technology的收购主要是为了完成数据沿袭的工作。另外，收购Think Big主要为了为客户提供更优的咨询方面服务，例如就如何更好地管理Hadoop系统，提供咨询服务。而收购RainStor则是把那些大量的可伸展性的数据来进行压缩，把它进行很好的压缩之后，实现更高效率的数据存储。

综上所述，这些收购都是为了具备生态系统各种不同的能力所做的准备，并将通过QueryGrid软件实现上述所有这些功能之间的互通和互操作。

大数据，已成许多行业的生命线

风风火火数年，是炒作还是价值，大数据的讨论从未停止过。在专访中，宝立明以一个电信运营商的例子告诉我们，时下大数据已成为许多盈利的根本：

消费者对网络带宽的需求呈指数级增长，但电信运营商在这个上面的收入却只呈线性增长。大家都想要花更少的钱获得更多的东西。这对于运营商来说，自然就演变为成本和收入不平衡的关系。这也是西班牙电信、Verizon和AT&T等电信公司尽力做数据变现服务的原因，尝试弥合收支不平衡的鸿沟。

众所周知，通过售卖带宽获得的收入是有限的，因为基本上人们都是以月付订购方式进行购买。现在更多的电信运营商将重点放在增值服务上，例如电信运营商可以针对零售业来进行推荐，比如北京某一条街道的人流量最多，这里是进行广告投放或者开店的最优位置；或者说还可以再进一步提供增值服务，比如我们经常谈到的LBS基于位置的服务，其实电信运营商在这方面比其它公司更有优势。因此，通过这种数据变现的方式，可以更好地弥补网络带宽成本和收入之间的鸿沟。

通过数据变现，大数据分析能给电信运营商带来的更大的益处。因为我们需要数据分析，才能够提供精准位置的信息情报，所以现在越来越多的是一些地理空间的非常精准的数据分析，然后把这些数据分析的结果再一次打包，以B2B的商业模式提供给企业级客户，也就是将消费者的数据作为产品销售给企业客户。

正文到此结束