转载

【SDCC讲师专访】TalkingData张夏天:算法是机器学习的核心

CSDN年度技术盛宴 “SDCC 2015中国软件开发者嘉年华” 将于2015年11月19-21日在北京召开。CSDN软件研发频道将采访一些与会讲师,谈谈他们将在会上分享的内容。

本期我们采访的讲师是TalkingData首席数据科学家张夏天,曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职。对大数据环境下的机器学习,数据挖掘有深入的研究和实践经验。在TalkingData负责数据挖掘和机器学习工作,为TalkingData各个产品线和服务线提供支持。

【SDCC讲师专访】TalkingData张夏天:算法是机器学习的核心

CSDN:请简单介绍下您和目前的工作,以及说说您自己曾经的计算机经历?

张夏天: 目前我是在TalkingData的数据科学部主要负责数据挖掘,机器学习,业务建模等方面的工作。目前我主要的工作有三块,一是大规模机器学习能力的建设,二是基础数据的深度挖掘和整理,三是支持不同业务的数据挖掘和业务建模的工作。前两个工作都是为了支持第三个工作的高效进行。我们最大的责任就是在不同的行业,把数据的价值发挥出来。

我是初中开始接触计算机的,当时学校有个微机房有几十台286电脑,记得也就是学了些打字和最简单的Basic语言。后来在高中,参加了学校的计算机奥赛的小组,参加时间不长,学了点Pascal。大学学的数学,计算机学得比较少,不过在系里还算学得比较好的。研究生转了计算机专业,做了很多项目,毕业进来IBM中国研究院,主要从事推荐系统方面的研究工作。在IBM呆了4-5年,感觉做推荐系统、数据挖掘得有数据,后来就去了腾讯,从此就踏入了互联网行业。

CSDN:您对算法是怎样的理解?以及相比于产品决策团队、数据工程师,算法工程师在一个公司里如何安排好自己的位置?

张夏天: 算法是机器学习的核心,所有的研究都是为了最后设计出更好的算法。机器学习的进步也是被一种又一种新的算法的出现而推着前进。当然,任何一种算法都有自己的局限性,在实际工作中我们不能指望算法帮我们解决所有问题,不要过度的崇拜算法。实践中,对问题的理解,对数据的理解,对数据的清洗,处理和加工带来的影响可能比算法更大。我们团队还比较小,没有专职的算法工程师,目前公司的各种数据应用尝试又比较多,所以在我的团队我是要求大家向数据科学家的方向发展,而不仅仅是实现算法、使用算法。

数据科学家是个很炫酷的职位。我个人理解数据科学家需要具备理解业务的能力,洞察数据的敏锐性,懂机器学习理论和算法,又具有一定的编程开发能力。是能够独立运用各种技术解决数据驱动的业务问题的专家。

CSDN:目前TalkingData的算法团队情况是怎样的?又是如何支持公司各个产品线和服务线的?

张夏天: 目前我们的团队还在发展中,目前一共是5个人,除了我以外都还比较年轻,现在也在努力引进一些资深的人才。因为我们是数据公司,在很多产品和服务中就少不了数据挖掘能力的支持。对工具类产品,我们团队主要提供算法库的支持,同时也会跟产品经理一起梳理算法在产品中如何应用。而对于数据类的产品,我们会参与产品核心算法的研究。我们目前有很多的数据应用服务的项目和探索,在这块我们团队会根据需求,在项目不同的阶段参与进来提供支持。

CSDN:能够简单介绍下TalkingData大规模机器学习的应用情况?

张夏天: 我们目前的大规模机器学习是基于Spark平台的,目前主要用于Lookalike(相似人群)挖掘。我们累积的数设备数已经超过23亿,在这么大的池子中做Lookalike是一个规模很大的问题。为了支持这个应用,目前可以做到10亿级别的样本,数百万的维度下将LR算法10分钟训练完。不过为了支持这个能力的产品化,我们还在想办法能够将算法效率进一步提高,个人的目标是10秒以内。

CSDN:在这个信息完全碎片化的时代里,大数据的出现让整个广告行业日新月异。广告主从漫无目的量化式投放成功过渡到精准到个人的精细化投放。这种小成本大收益的模式得益于大数据背后精准的数据支撑,而算法在这类的实际应用中有着怎样或多大的作用?

张夏天: 算法当然是起到了非常关键的作,精准投放比盲投提高一倍的ROI不是什么难事。算法的精度、效率直接决定了最决定了广告的效果和收益。精度非常好理解,效率也很重要呢? 因为广告市场的变化是很快的,每时每刻都有新的广告进来,老的广告退出,用户兴趣也在发生变化。一个再精准的算法模型,如果训练时间太长,训练出来的模型就已经落后于实际情况了。所以趋势是模型的更新速度越来越快,现在已经向on line learning的方式在发展了。精准投放是一个系统工程,算法仅仅只是其中一环,更基础的还是数据。算法是屠龙刀,但是还得有龙屠,我们公司最主要的还是在养龙。

CSDN:如果想从事算法方面的工作,能够推荐一些有效的学习方法?以及结合多年工作,可否推荐一些工具或学习库。

张夏天: 我对我们团队的要求是不要先一下就去看算法,先把概率与统计好好复习一遍,再来看机器学习方面的书。我认为机器学习实际是统计学的衍生,主要是为了解决多维问题。如果不理解本质而只追求方法,就很难有很大的提高。以前做实验我用weka比较多,后来都是处理大规模的问题,基本都只能靠自己写,这方面也难给出什么推荐。 

CSDN:可否推荐一份机器学习和数据挖掘的书单?

张夏天: 我看过的觉得比较好的有《统计学习理论》、《统计学习方法》、《数据挖掘:概念与技术》、《Machine Learning: A Probabilistic Perspective》、《模式分类》。

CSDN:在本次SDCC 2015大会上,您想分享的话题是?

张夏天: 本次大会上,我将分享一些我对随机非参数学习方法的一些心得和体会。这是一类不太主流的方法,虽然这类方法的研究价值可能没有那么大,但是在实践中应该还是比较好用的工具。

CSDN:您最期待在SDCC 2015大会上看到哪些内容?

张夏天: 希望看到同行们在数据挖掘,机器学习应用方面的新进展。

(责编/钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,交流探讨可加微信qshuguang2008,备注姓名+公司+职位) 

值得一提的是,由CSDN举办的 SDCC 2015中国软件开发者嘉年华 将于11月19-21日在北京举行,本次大会涵盖:新型数据库、编程语言、工具与平台、产品与设计、前端开发、算法、微信开发、架构实践、安全等九大分 论坛,届时国外知名讲师将分享所在领域的最佳实践。 【 点击这里抢票 】

【SDCC讲师专访】TalkingData张夏天:算法是机器学习的核心

正文到此结束
Loading...