系统架构:
Cloudera和它的产品们
Apache Hadoop与CDH版本关系
CDH为什么更好?
yum ,tar, rpm, cloudera manager 四种安装方法
CDH3u3重大改善
CDH3u4重大改善
Cloudera Manager
Cloudera Training
分为Administrator和Development两门课程
运维事故
1、伤不起的内存
现象1
系统上线第二天,Jobtracker不工作,web页面打不开 原因
一次提交Job数量太多,导致Jobtracker 内存溢出 解决
调大JT内存;限制Running Job数量 现象2
NN内存溢出,重启后发现50030页面显示fsimage损坏,调查发现SNN fsimage同样损坏了 原因
小文件太多导致NN/SNN内存溢出,导致fsimage文件损坏,但是重启后的NN可以正常服务。 原因
Cloudera google group去救,获得后门脚本 2、低效的MapReduce Job
现象
MapReduce Job执行时间过长 原因
MR中用到了Spring,小文件导致Map方法效率低下,GZ文件读写效率低 解决
MR去Spring化;开启JVM重用;使用LZO作为输入和map输出结果;加大reduce并行copy线程数 压缩与MapReduce性能
3、OMG,整个集群完蛋了
现象
早上来发现所有DataNode都dead了,重启后10分钟,DN陆续又都dead了;调查发现节点有8%左右丢包率 原因
交换机模块故障;DN不能Hold住大量小文件 解决
升级3u2到3u4;设置DN内存到2GB 遇到无法跨越的问题解决办法
监控与高级
Nagios告警:
业务监控: