浅论Hadoop应用工作思路 hadoop

浅论Hadoop应用工作思路

随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论: 首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司,什么部门,应该建设一支以开发人员为主的团队。立足于能读懂开源代码,能修改bug,可以根据自己的...
阅读全文
Mysql表数据导入Hbase hadoop

Mysql表数据导入Hbase

一、问题: 目前数据库一个表数据非常大,达到几千万行,需要导入Hbase进行处理 二、实现思路 2.1用shell导入,基于sqoop sqoop思义sql to hadoop。sqoop特性:支持多种导入方式,包括指定列导入,指定格式导入,支持增量导入(有更新才导入)等等。如下的导入都是指定一个列族,rowkey即为mysql表中的第一列id名称, ./sqoop im...
阅读全文
sqoop的安装与使用 hadoop

sqoop的安装与使用

Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换。强大功能见下图 以下操作就是使用sqoop在mysql和hdfs之间转换数据。 1.安装 我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr/local目录下。 首先就是解压缩,重命名为sqoop,然后在文件/etc/profile中设置环境变量...
阅读全文
hbase与关系数据库区别  hadoop

hbase与关系数据库区别

任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不管那种技术最终要达到的目的是一样的,通过新的技术手段你往往可能避讳了当前你所需要面对的问题,但过后新的问题又来了。也许回过头来看看还不 如在原来的基础上多动动脑筋 想想办法 做些改良可以得到更高的回报。 传统数据库是以数据块来存储数据,简单来...
阅读全文
深入理解HBase hadoop

深入理解HBase

思考:HBase服务器内部由那些主要部件构成? HBase的内部工作原理是什么? 1.    HBase的工作原理: 首先HBase Client端会连接Zookeeper Qurom(从下面的代码也能看出来,例 如:HBASE_CONFIG.set("hbase.zookeeper.quorum","192.168.50.216") )。通过Zookeeper组件Client能...
阅读全文
NameNode AND SecondaryNameNode的作用 hadoop

NameNode AND SecondaryNameNode的作用

从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 snn...
阅读全文
HDFS的web接口 hadoop

HDFS的web接口

HDFS对外提供了可供访问的http server,开放了很多端口,下面介绍常用的几个端口。 50070端口 查看NameNode状态,如图4-59所示。 图4-59 该端口的定义位于core-default.xml中,如图4-60所示,读者可以在core-site.xml中自行修改。 图4-60 如果读者通过该端口看着这个页面,以为着NameN...
阅读全文
HDFS使用指南 hadoop

HDFS使用指南

目的 本文档的目标是为Hadoop分布式文件系统(HDFS)的用户提供一个学习的起点,这里的HDFS既可以作为Hadoop集群的一部分,也可以作为一个独立的分布式文件系统。虽然HDFS在很多环境下被设计成是可正确工作的,但是了解HDFS的工作原理对在特定集群上改进HDFS的运行性能和错误诊断都有极大的帮助。 概述 HDFS是Hadoop应用用到的一个最主要的分布式...
阅读全文
Hadoop集群搭建 hadoop

Hadoop集群搭建

目的 本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。 先决条件 确保在你集群中的每个节点上都安装了所有必需软件。 获取Hadoop软件包。 安装 安装Hadoop集群通常要将安装软件解压到集群内的所有机...
阅读全文
Hadoop快速入门 hadoop

Hadoop快速入门

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。 先决条件 支持平台 GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。 Win32平台是作为开发平...
阅读全文
Loading...