转载

Flume:构建高可用、可扩展的海量日志采集系统——1.0 认识Apache Hadoop和Apache HBase

Hair Shreedharan大作《Using Flume:Flexible,Scalable and Reliable Data Streaming》原版授权翻译，未经允许不得转载！

第一章认识Apache Hadoop和Apache HBase

Apache Hadoop是一个高度可扩展的、容错的分布式系统，这意味着它可以存储海量数据，并且可以恰当的处理这些数据。Hadoop的设计理念是共用同一个集群，运行大规模处理系统和存储数据。Hadoop的设计哲学是将所有的数据存储在一个地方，并且在同一个地方处理数据——也就是，将处理移动到数据存储，而不是将数据移动到处理系统。Apache HBase是构建在Hadoop上的，提供key-value存储的数据库系统，HBase得益于Hadoop提供的分布式框架。

一旦数据写入Hadoop分布式文件系统（HDFS）就不可改变。HDFS中的文件只支持追加的方式。一旦一个文件被创建并写入数据，该文件可以追加或删除。但是不能改变该文件中的数据。尽管HBase运行在HDFS上，但是HBase支持对任何写入数据的更新操作，非常类似传统的数据库系统。

本章将会简单介绍Apache Hadoop和Apache HBase，但不会阐述很多细节的内容。

原文 http://www.adintellig.com/using-flume-1-0/

正文到此结束