转载

Flume:构建高可用、可扩展的海量日志采集系统——1.0 认识Apache Hadoop和Apache HBase

Hair Shreedharan大作《Using Flume:Flexible,Scalable and Reliable Data Streaming》原版授权翻译,未经允许不得转载!

第一章 认识Apache Hadoop和Apache HBase

Apache Hadoop是一个高度可扩展的、容错的分布式系统,这意味着它可以存储海量数据,并且可以恰当的处理这些数据。Hadoop的设计理念是共用同一个集群,运行大规模处理系统和存储数据。Hadoop的设计哲学是将所有的数据存储在一个地方,并且在同一个地方处理数据——也就是,将处理移动到数据存储,而不是将数据移动到处理系统。Apache HBase是构建在Hadoop上的,提供key-value存储的数据库系统,HBase得益于Hadoop提供的分布式框架。

一旦数据写入Hadoop分布式文件系统(HDFS)就不可改变。HDFS中的文件只支持追加的方式。一旦一个文件被创建并写入数据,该文件可以追加或删除。但是不能改变该文件中的数据。尽管HBase运行在HDFS上,但是HBase支持对任何写入数据的更新操作,非常类似传统的数据库系统。

本章将会简单介绍Apache Hadoop和Apache HBase,但不会阐述很多细节的内容。

原文  http://www.adintellig.com/using-flume-1-0/
正文到此结束
Loading...