标签:HDFS

Java

原 荐 Ignite集成Spark之IgniteRDD

1

刘莉莉 发布于 2018-09-14

本系列共两篇文章,会探讨如何将Ignite和Spark进行集成。 Ignite是一个分布式的内存数据库、缓存和处理平台,为事务型、分析型和流式负载而设计,在保证扩展性的前提下提供了内存级的性能。 Spark是一个流式数据和计算引擎,通常从HDFS或者其他存储中获取数据,一直以来,...

阅读(73)评论(0)赞 (0)

Java

华为 深信服等研发面经

3

likai 发布于 2018-09-14

华为 深信服等研发面经 本文首发于微信公众号:程序员江湖 美图面经: 一面: 1 Java的hashmap 2 Java的多线程技术,线程池 3 Java的jvm讲一下,内存模型,垃圾回收 4 mysql的索引怎么建,优化 5 Linux操作系统了解哪些 6 网络和操作系统问了些...

阅读(63)评论(0)赞 (0)

Java

想要年薪10万+,Java开发者必会这15个大数据工具和框架!

2

dulong 发布于 2018-09-13

国内大多数大型互联网公司的程序员被称作研发工程师,但实际上国内几乎没有研发项目,只能叫做开发。 开发程序员的工作大多是重复性劳动,容易产生疲惫感,薪资在工作2-5年内就达到了一个峰值,再要提升就比较困难,这样就导致了很多程序员最终转行做了其他行业。 JAVA的精密、强大,拥有其它...

阅读(59)评论(0)赞 (0)

Java

原 荐 Dubbo链路追踪——生成全局ID(traceId)

12

wenming.gapo 发布于 2018-09-10

残刃O的个人空间 Dubbo 正文 Dubbo链路追踪——生成全局ID(traceId) 原 荐   键走偏锋 发布于 22分钟前 字数 899 阅读 4 收藏 0 Dubbo 开源中国十周年庆:开源众包怎么做我说了算!参与赢终身免费大奖 >>> 全局...

阅读(103)评论(0)赞 (0)

Java

Hiveserver2 性能优化与GC优化

xiaoli.he 发布于 2018-09-10

一、问题描述 开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql...

阅读(54)评论(0)赞 (0)

Java

Uber开源JVM Profiler,用以跟踪分布式Java虚拟机

2

xubiao.zhuang 发布于 2018-08-30

6月下旬,Uber开源了一个分布式性能分析器,名为 JVM Profiler 。Uber搭建这一工具的目的是解决他们在使用Apache Spark框架过程中的资源配置问题。Apache Spark是一个非常流行的框架,主要用于处理大型数据流问题,这正是Uber所需要的。JVM P...

阅读(97)评论(0)赞 (0)

Java

原 荐 Uber 开源分布式追踪工具:JVM Profiler

7

puefu.he 发布于 2018-08-19

《JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale 》 Apache Spark 计算框架已经被广泛用来构建大规模数据应用。对 Uber 而言, 数据是战略决策和...

阅读(48)评论(0)赞 (0)

Java

彻底搞明白JAVA中JDBC连接

xiaoli.wang 发布于 2018-08-17

一开始我们在学习JDBC的时候,老师就教我们了以下几步来建立JDBC连接. public static void main(String[] args) throws ClassNotFoundException, SQLException {         Class.for...

阅读(39)评论(0)赞 (0)

Java

Spark之Java编程

songhua.gao 发布于 2018-08-11

Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,S...

阅读(72)评论(0)赞 (0)

Java

搭建大众点评CAT监控平台

8

puefu.he 发布于 2018-08-05

CAT(Central Application Tracking)是基于Java开发的实时应用监控平台,包括实时应用监控,业务监控。关于CAT的具体介绍可移步到 CAT官网 进行查阅。 1. 环境清单 CentOS 7 Java 8 Maven 3.5 MySQL 5.7 CAT...

阅读(103)评论(0)赞 (0)

开源软件

Hadoop老矣,为什么腾讯还要花精力在其开源发布上?

3

xubiao.zhuang 发布于 2018-07-12

      前些日子,腾讯主导开源大数据平台 Apache Hadoop 2.8.4 新版本发布的新闻引起了笔者的注意。自 Hadoop 从雅虎诞生之日起,已经走过了 10 来个年头,这期间,尤其是近年来,由华人作为 Release Manager ...

阅读(106)评论(0)赞 (0)

Java

spark java.lang.StackOverflowError

songhua.gao 发布于 2018-07-03

问题描述 在工作中使用spark的一个主要内容就是从多个路径下搜集数据并进行处理。常用的代码大致如下:     val paths = obtainPaths()     val rdd = paths.map(readData).reduce(_ ++ _)     val a...

阅读(79)评论(0)赞 (0)

Java

互联网后端基础设施

6

changyuan.xu 发布于 2018-06-26

1.1 后端基础设施 使用Java后端技术的目的就是构建业务应用,为用户提供在线或者离线服务。因此,一个业务应用需要哪些技术、依赖哪些基础设施就决定了需要掌握的后端技术有哪些。纵观整个互联网技术体系再结合公司的目前状况,笔者认为必不可少或者非常关键的后端基础技术/设施如下图所示:...

阅读(332)评论(0)赞 (0)

Java

java分布式(java入门)

xubiao.zhuang 发布于 2018-06-01

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 说起来,在大学里面我学过的编程语言只有c++和java。这其中c++是作为必修课学的,而java是作为选修课学的。至于后面的c、汇编、python、js这些语言,那都是工作了之...

阅读(81)评论(0)赞 (0)

Java

Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法

1

wenming.gapo 发布于 2018-05-25

数据计算平台重新搭建成功后,一切顠红,看起来心情就是舒畅,放个截图让心情爽一把: 后续当然需要做一些验证性的工作,以确保安装成功后一切都是执行OK的。 先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行Hive SQL执行窗口,先创...

阅读(86)评论(0)赞 (0)

Java

Cat统一监控平台简单使用

8

darida 发布于 2018-05-24

1、如何实时查看线上接口的性能,包括压测,接口太慢如何定位? 2、如何实时统计线上流量以及接口调用量? 3、线上接口可用率达不到100%,如何进行告警? 4、线上服务器 缓存,jvm内存,GC 如何进行实时监控? ….. 带着这些疑问,我们找到了大众点评的Cat,有了Cat这些问...

阅读(106)评论(0)赞 (0)