转载

Netflix上流行啥?

(图为Netflix即将推出的“非专业色情片”行业的纪录片"Hot Girls Wanted(征集火辣女郎)",记录了大批18、9岁的年轻女孩源源不断“入行”的真实现状。)

Netflix上正在流行啥?

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

原文链接: http://techblog.netflix.com/2015/02/whats-trending-on-netflix.html

原作者:Prasanna Padmanabhan, Kedar Sadekar, Gopal Krishnan

每天,全球各地数以万计的用户通过各种设备上Netflix观看影视作品。Netflix的影片推荐系统贡献了绝大多数的观影流量。我们正在持续投资建设、改进这个系统,希望能够帮助用户挖掘出他们最感兴趣的内容。我们也在以AB测试(A/B测试是一种“先验”的实验体系,属于预测型结论)为核心,不断提高推荐影片的质量。

在这一方面:根据Netflix内部的精确信号(如观影记录、评分、我的播放列表等)和模糊信号(页面滚动、影片导航等)的组合,以近线存储(主要定位于客户在线存储和离线存储之间的应用)的方式预计算出推荐影片。不管怎样,新的“正在热播”列表是根据事实数据计算得出的。因此,我们不仅仅能根据某一特定时刻的信息个性化定制推荐影片,还可以及时响应大规模的突变,例如根据奥斯卡颁奖典礼或万圣节实时发生的事件向用户推荐相关视频。

Netflix上流行啥?

数据收集

我们主要根据以下两种数据流推算当下流行的影片:

- 播放事件:被会员点播的影片

- 印象事件:被会员通过视频端口观看的影片

Netflix使用面向服务的体系结构(Service Oriented Architecture,简称SOA)。SOA由许多个精雕细琢的小服务组成,每个小服务只负责做一项任务,并将这唯一的一项任务做到最好。照这个思路,历史播放记录负责捕捉会员们的观看历史。Beacon(基于C/C++/Java语言开发, 助力用户对服务器运行资源及其系统中关键应用服务运行资源进行监控和数据分析。)服务负责捕捉所有印象事件以及Netflix上所有的用户活动。实时计算影片推荐列表对我们来说是一个令人兴奋的挑战。我们需要将数据收集/处理流水线做成一个延迟时间短、高度可拓展、灵活的系统。我们选择了Kafka系统(分布式信息系统,每秒能够处理上百万个事件)作为数据流水线。通过浏览记录和信标服务收集到的所有数据都被发送到Kafka系统进行处理。

Netflix上流行啥?

数据处理

我们构建了客户流处理器,利用Kafka上播放事件和印象事件数据计算出以下聚合数据:

播放热度:视频播放次数

点进率:特定视频的播放事件与印象事件的比

在数据处理层,我们首先利用请求ID将播放数据流和印象数据流结合起来。其中每个请求ID都是唯一的,它们将前端请求和后端应答联系起来。有了这样的结合,对每一个请求ID,播放事件和印象事件会被分到一组。

Netflix上流行啥?

针对同一个播放事件和印象事件的处理器,结合流和视频ID是分开的。因此,每一个处理器都能精细化地计算出每个视频播放及印象的总数。播放热度和点进率数据会被存入Cassandra(开源分布式NoSQL数据库系统)。

Netflix上流行啥?

实时数据监听

出于对推荐系统数据质量以及用户体验的考虑,我们持续对事件流进行Canary分析,包括简单地验证一个事件是否包含了必需属性,到较为复杂地在一个时间窗内找到该事件所缺少部分。只要对于合适的地方保持合适的灵敏度,就能在每个UI推送时间内通过实时数据流监听完成数据回归分析。

Kafka的消费者端若跟不上Kafka的数据输入速度,也就不能实时完成事件处理,那么就不能提供真实的影响度,对快速完成数据回归分析也会有影响。

Netflix上流行啥?

小结

在用户提出请求时,通过合计播放热度、点击率,还有其他明确的指标比如会员播放历史和历史评分记录计算出其专属的“当前热门”。

Netfilx成功的关键在于我们的“数据驱动”的文化。有着数十亿的会员浏览事件以及数万的偏好类别,我们的推荐系统还将有无限的发展可能。

参与人员:策划-徐睿艺、樊茜茜;

编译-陈圣聪、聂煜绮;

编辑-裴懿萱;

推广-申洪浩、李华芳 、李逸馨

转载声明:欢迎转载,请您在转载时保留署名和引用信息。欢迎您在知乎或微信上关注我们。

Netflix上流行啥?

原文  http://lihuafang.baijia.baidu.com/article/391951
正文到此结束
Loading...