转载

视频访谈: 童有军:怎样进行精准用户画像

童有军: 分两方面来讲:其一从需求方来讲,类似之前的电商或者搜索平台,用户画像更多是将用户需求直接从搜索或购买行为中展现出来,这种画像是针对用户需求做的。而在广告平台当中,我们主要服务于广告商,画像的需求主要来自于广告商的定位和需求,这两者是需求方的来源差别。

其二,虽然从搜索平台或者电商平台中,广告平台能够拿到很多用户信息,但是对用户信息的管理并没有搜索或电商那么直接,所以这对于广告平台的用户画像来说是一个难点。

童有军: 事情从两方面看。数据少,获得信息少,这是难点;但是数据多而杂乱,也会造成困难,单从技术角度来说并没有高低之分。

童有军: LR虽然是个简单的模型,但有着良好的效果,目前大规模应用在CTR预估方面。LR对高维数据空间有很好的效果,并且可以用于online的训练,这两点非常适合应用在广告平台上。之前有一个模型叫FTRL,它在广告的CTR预估上几乎占据统治性的地位。但随着技术的崛起,有些平台已经把这个技术转到Deep Learning的技术上。

童有军: LR模型跟贝叶斯算法不太像,因为贝叶斯是概率模型。我觉得LR有两个最大的优点,一是它的数据吸收性处理,二是良好的online训练。像SGD这种方式,以及我刚才讲到的FTRL算法的online训练,LR非常适合不断的迭代学习。

童有军: 这是我们分享的重点。因为对于广大从事数据工作的程序员来讲,一般情况下我们拿到的数据质量是非常好的,因此不会对它产生怀疑。但是当数据中的噪声达到一定比例时,会对模型性能产生很大的限制,并且我们在实际工作中也碰到过类似问题。在降噪上大概的几种标准的方法我们都在使用,比较主流的方法类似于Boosting,bagging,半监督,无监督的方法。在我们的share中会将这几种方法做对比,大家可以根据方法的优劣性选择适合自己的方法,进行数据的降噪。

童有军: 降噪包含很多方面,我们是针对广告商的需求来制定我们的模型和算法,这又分为两种,一种是通过用户画像的细分去投放广告,另外一种是测量,我们先通过广告商的需求将广告投放给用户,然后通过反馈来测量,这是需求的不同。

你所说的去重降噪,其实与我理解的降噪是两种不同的概念,你讲的实际是数据清洗的一种方法,而我说的“噪声”类型是label noise,也就是数据相对干净但标签是杂乱的。

童有军: 机器学习这个领域在近十年甚至十五年前就已经开始蓬勃发展了,而我在这个领域也只算一个新人,说不上什么建议。

随着这两年数据计算能力的发展,分布式平台使得我们有能力去处理海量的数据,并从这海量的数据中提取更多知识。比如深度学习,现在它的发展已经在计算机视觉、自然语言处理上做出了非常令人惊奇的效果,类似的像AlphaGo和之前的Googlenet。所以我觉得在深度学习或者机器学习领域会有很大的提升空间,希望我们从事这个行业的或者这个方向的人能够为科技的进步做出自己的贡献。

InfoQ: 谢谢你接受我们的采访。

原文  http://www.infoq.com/cn/interviews/interview-with-tongyoujun-talk-precise-user-portrait
正文到此结束
Loading...