转载

【BDTC先睹为快】中国联通范济安:SQL on Hadoop和Machine learning值得关注

为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。

【BDTC先睹为快】中国联通范济安:SQL on Hadoop和Machine learning值得关注

2015中国大数据技术大会

BDTC 2015将为期三天,在大会主会之外,拟设立16个分论坛,包括数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育、网络通讯等7大应用论坛,以及政策法规和标准化、数据市场及交易、社会治理等3大热点议题论坛,将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Spark、Kudu、PostgreSQL、YARN、HBase、机器学习/深度学习、推荐系统等热门技术及行业实践。

本次大会邀请到了 中国联通集团公司信息化与电子商务事业部副总经理、总架构师(CTO),国家千人计划专家范济安博士 担任 全体大会 演讲嘉宾,进行题为“ 中国联通大数据应用与实践 ”的主题演讲,介绍中国联通集团怎样利用通讯数据在行业应用里发挥价值。他将通过介绍联通集团所具备的数据、采集方式、加工服务体系等,引入几个典型的跨域使用案例(如旅游与征信),并介绍在这些实践中所遇到的问题和技术挑战。

范济安在接受CSDN云计算的会前采访中介绍,联通的大数据平台是混搭架构,集成了基于Oracle的数据仓库、MPP数据库和Hadoop。Hadoop的亮点是分布式文件存储系统,在中国联通Hadoop部署规模已经达到2000节点以上。大数据系统与OpenStack、Docker等云计算技术的结合是中国联通目前面临的主要挑战。

对于未来,范济安认为关注SQL on Hadoop和Machine learning最值得关注。他表示,现在联通的大数据分析还是基于业务经验来建模分析。关注机器学习主要是它的那些算法,试图通过纯算法来分析出一些经验无法得出的关联关系,从而找出新的创新点。

【BDTC先睹为快】中国联通范济安:SQL on Hadoop和Machine learning值得关注

范济安

中国联通集团公司信息化与电子商务事业部副总经理、总架构师(CTO),国家千人计划专家

范济安博士,国家千人计划引进专家,现任中国联通集团公司信息化与电子商务事业部副总经理、总架构师( CTO)。范济安博士主持了联通集团的信息化建设三年规划,提出三层架构的云化目标架构并带领联通集团数据中心,规划、设计、部署、运营了联通的大数据平台并在大数据对内应用对外开放方面做出了有效的尝试。范济安博士曾长期任职于法国电信,先后担任过IT总架构师、集团客户IT业务拓展高级副总裁、Orange业务支撑中心主任等职位。范济安博士早年就读清华大学建筑工程系,后由教育部选派到法国留学,毕业于法国国家高等先进技术学院并在巴黎居里大学获得核工程物理学博士学位。

以下为范济安采访实录

CSDN:请介绍一下您公司的业务,大数据对公司业务的价值,以及您部门的职责

范济安: 中国联通,世界500强企业,是一家具有固网宽带和移动通讯的综合性电信运营商,用户规模达到4亿以上。大数据对公司业务的价值主要体现在存量客户经营、个性化客户服务、精准化市场营销、网络优化与建设、公司内部精细化管理等方面。我所负责的集团大数据中心的职责是采集、整合、存储全联通集团的数据并将其开发成产品,对内对外提供服务。

CSDN: 能否介绍您在项目实施中曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?

范济安: 联通的大数据平台是混搭架构,集成了基于Oracle的数据仓库、MPP数据库和Hadoop。Oracle作为数据仓库仍发挥着它的巨大作用尤其是在多表关联的计算能力方面。但是面对移动互联网时代的海量数据,它的容量问题和由此而带来的性能问题使得我们不得不将海量数据的处理交由MPP和Hadoop来完成。MPP使用的是分布式技术,采用X86服务器,兼容SQL,可替换关系型数据库,性能也有所提高,但系统稳定性成问题特别是当数据规模达到PB级后经常出现宕机现象。系统重启耗时严重,甚至出现连续宕机。Hadoop的分布式文件存储系统是它的亮点,在它之上的计算框架、NoSQL数据库等产品种类丰富,技术发展的速度也很快,应用也多样化。目前可以看作是未来发展的方向。它的缺陷是由于大部分组件来自开源社区,使得系统之间的兼容性和管理变的越来越复杂。尤其是像中国联通这样的企业,Hadoop节点达到2000以上。

CSDN: 能否分别从软件、硬件、开发者的角度谈谈,大数据在您的行业落地目前主要面临哪些挑战?

范济安: 大数据已在联通落地,就目前情况来看挑战主要来自下面几个方面:一是大数据与云计算的结合;为了对内对外开放平台能力并保证数据安全,我们要在大数据平台上引入多租户概念。这就需要Hadoop能与底层的IaaS有紧密结合,便于将硬件资源与数据捆绑在一起提供给租户们使用。对上层的应用也要支撑多租户模式下的SaaS服务。Hadoop能否落户虚机?性能的保障?与OpenStack对接形成一体化管理?在Docker环境里开发Hadoop应用等等是我们目前主要面临的挑战。

CSDN: 根据您的了解,技术人员容易犯哪些错误导致大数据实践的失败?

范济安: 过度注重平台技术与算法而忽略了应用,忽略了用户的需求。我们的经验是要以业务需求为导向开发实践大数据。优秀的数据科学家,应当是既懂技术又懂业务的双料人才。

CSDN:大数据领域的新技术发展很快,相关的开源软件日新月异,从整个大数据应用来说,您认为哪些技术趋势值得关注?

范济安: SQL on Hadoop和Machine learning。

  • SQL on Hadoop 。通过SQL on Hadoop可以直接在Hadoop侧做多表关联类的工作,不用再将数据移至Oracle侧来完成。这样做的目的也是为了最终的系统整合。其实有些厂家早已开始这方面的尝试,如Pivotal的HAWK,Cloudera的Impala,国内星环科技的Inceptor等。
  • Machine learning 。现在联通的大数据分析还是基于业务经验来建模分析。关注机器学习主要是它的那些算法,试图通过纯算法来分析出一些经验无法得出的关联关系,从而找出新的创新点。

CSDN: 针对您所在的行业,哪些技术是您目前主要观察和研究的,您为什么看好这些技术?

范济安: 底层的存储技术,通过软件定义能够基于分布式架构提供我们所需要的文件存储、块存储、镜像存储等服务。另一项技术关注点是预测分析技术,通过机器学习等技术手段实时地对结构化和非结构化数据进行分析、预测。

CSDN: 请谈谈您在这次大会上即将分享的话题。

范济安: 怎样利用通讯数据在行业应用里发挥价值是我在本次大会上与大家分享的话题。通过介绍联通集团所具备的数据、采集方式、加工服务体系等,引入几个典型的跨域使用案例如旅游与征信。同时与大家分享我们在这些实践中所遇到的问题和技术挑战。

CSDN: 哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

范济安: 行业专业人士,业务部门的代表寻求了解大数据能为传统业务带来什么样的变革?技术部门的架构师、开发者寻求了解怎样搭建起自身的大数据平台?利用数据开发何类型的应用?可能遇到的哪些问题与挑战?

CSDN: 能否谈谈您对BDTC2015、其他的讲师分享的话题有什么期待?

范济安: 主要是想了解技术发展趋势、数据安全方面的解决方案及行业应用案例。

第九届中国大数据技术大会 将于2015年12月10-12日在北京隆重举办。在主会之外,会议还设立了16大分论坛,包含数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育等7大应用论坛和3大热点议题论坛, 票价折扣中预购从速 。

正文到此结束
Loading...