原创

hadoop权威指南.pdf下载

Hadoop起源于Nutch项目。我们曾尝试构建一个开源的Web搜索引擎,但是始终无法有效地将计算任务分配到多台(也就寥寥几台)计算机上。直到谷歌公司发表GFS和MapReduce的相关论文,我们的思路才清晰起来。他们设计的系统已可精准地解决我们在Nutch项目中面临的困境。因此,我们(两个半天工作制的人)也尝试重建这些系统,将其作为Nutch的一部分。我们成功地在20多台机器上运行了Nutch。但是我们很快就意识到,只有在几千台机器上运行Nutch才能够应付Web的超大规模,但这个工作量远远不是两个半天工作制的开发人员能搞定的。几乎就在那个时候,雅虎公司也对这项技术产生了浓厚的兴趣,并迅速组建了一支开发团队。我有幸成为其中一员。我们剥离了Nutch的分布式计算模块,将其称为Hadoop。在雅虎的帮助下,Hadoop很快就能够真正处理Web数据了。从2006年起,Tom White就对Hadoop贡献良多。我很早以前通过他的一篇非常优秀的有关Nutch的论文认识了他,在这篇论文中,他以一种优美的笔调清晰地阐述了深刻的想法。很快,我发现他开发的软件也同样优美且易于理解。Tom从一开始就乐于站在用户和项目的角度来考虑问题。与其他开源程序开发人员不同,Tom不会刻意调整系统使其更加符合他个人的需要,而是尽可能地让所有用户用起来都很方便。Tom最初专注于如何让Hadoop在亚马逊的EC2和S3服务上运行良好。之后,他转而解决更为广泛的难题,包括如何提高MapReduce API,如增加强网站,如何设计对象序列化框架,等等。在所有工作中,Tom都非常精准地阐明了想法。在很短的时间里,Tom进入了Hadoop委员会,并在不久之后成为Hadoop项目管理委员会的一员。现在,Tom是一个受人尊敬的Hadoop开发社区的高级成员。尽管他是这个项目多个技术领域的专家,但他的专长是使Hadoop易于理解和使用。因此,当我得知Tom有意写一本关于Hadoop的书时,我非常高兴。是的,谁能够比他更胜任呢?现在,你们有机会向这位大师学习Hadoop——不单单是技术,也包括一些常识和通俗的笔调。 [download id="5"]
正文到此结束
Loading...