转载

Netflix的实验平台探秘——A/B测试

【编者的话】作为一家在线影片租赁提供商，Netflix需要保证其流数据的服务质量和网站主页的吸引力。那么，Netflix是如何对网站的重大改变进行测试和评估的呢？近日，Netflix的工程师Steve Urban等就在官方博客中发表文章，介绍了Netflix的实验平台，对平台中所采用的A/B测试进行了详细解释，希望读者可以从中有所收获。

您是否曾考虑过Netflix是如何保证高质量视频和最小回放中断等良好流数据服务质量的呢？其实，这多亏了公司的工程师和数据科学家。他们对自适应流和内容传输网络算法的任何修改都会进行A/B测试。那么，如果是 UI布局的完全重新设计或者新的定制化主页等明显的变化呢？这些更是要经过A/B测试。

实际上，对于每一次的产品改变，Netflix都会在其成为默认的用户体验之前走完严密的A/B测试流程。之前所提到的重大设计变动通过允许用户更快地找到他们想看的内容，而极大地改善了我们的服务。然而，如果没有扩展的A/B测试来证明新的用户体验更好，这些改变就太冒险而无法使用了。此外，如果你曾怀疑我们是否真的对所有可能的情况进行了测试，考虑一下这项工作的潜力：在与很多名称相关联的图像进行A/B测试后，有时甚至会导致该名称的浏览量增加20%-30% 。

这样的结果进一步说明了我们为什么热衷于A/B测试。通过使用这种实验方法，我们保证了产品的改变不是由Netflix的员工随便“拍脑袋”得出，而是由实际的数据驱动，使得会员可以指导我们应该如何改善服务。

在这篇文章中，我们将讨论 实验平台 ：使得每一个Netflix工程团队都可以在一个特殊工程团队的帮助下实现A/B测试的服务。我们将从有关A/B测试的一些高层次内容讲起，然后讲述当前平台的架构以及其它服务是如何与该平台交互从而将A/B测试引入到生活中的。

概况

A/B测试背后最基本的概念就是完成带有一个控制组和一个或多个备选实验组（Netflix内部称其为“cell”）的实验。每一个会员在一个指定的实验中只属于一个cell，而其中一个cell被指定为“默认cell”。该cell代表了控制组，与不在测试中的所有Netflix会员享有同样的体验。一旦测试开始，我们会追踪特定的重要量度，通常为流小时和持续时间。一旦我们有足够多的参与者来得出统计意义上的结论，我们就可以读取每个测试cell的功效，并希望能找到一个优胜者。

从参与者的角度来说，如果测试不相互冲突（这里冲突的含义为两个测试以不同的方式修改同一个Netflix应用的相同地方），每一个会员通常在任何给定的时间都是若干A/B测试的一部分。为了帮助测试优胜者找到可能的冲突测试，我们会在平台的前端ABlaze中提供一个测试调度图。该工具使得它们可以从不同的维度来过滤测试，从而找到可能影响测试优胜者所修改地方的其它测试。

Netflix的实验平台探秘——A/B测试

在我们讨论细节之前，还有一个问题需要解决：会员是如何被分配到一个给定的测试的呢？我们支持两种主要的分配形式——分批和实时。

分批分配给了分析人员更多的灵活性，允许他们利用定制化的、简单或复杂的查询来进行测试。这些查询针对一个固定已知的会员集，然后将这些会员添加到测试中。这种方法的坏处是它缺乏分配新客户的能力，而且不能根据实时的用户行为进行分配。而且，当被分配的会员的数目已知时，不能保证所有被分配的会员会经历此次测试（例如，如果我们正在测试iPhone上的一个新功能，我们不能保证每一个被分配的会员在测试期间会通过iPhone来访问Netflix）。

实时分配提供了根据用户与Netflix的实时交互情况配置规则的能力。只有满足特定规则且不在冲突测试中的合适用户会被实时分配到测试中。因此，该方法克服了分批分配方法存在的弱点。然而，实时分配的主要缺点是，调用应用会因为等待分配结果而引入额外的延迟。幸运的是，我们经常可以在应用等待其他信息的时候，并行运行这些调用。另外一个问题就是，评估预想数目的成员被分配到一个测试所需要的时间是非常困难的。这就导致分析人员很难决定他们多久能够评估出测试结果。

一个典型的A/B测试工作流

介绍完背景知识，我们接下来将要深入介绍A/B测试。 图像选择 测试所用的工作流很好的解释了调用实验平台（图表中简称为A/B）的典型工作流。需要注意的是，尤其是在扮演外部Netflix应用和内部服务之间网管角色的 Netflix API层的架构方面，二者存在细小的差异，但我们不准备深入解释。

在该例子中，我们运行了一个虚拟的A/B测试，以找到促使最多会员观看某个特定视频名称的图片。每一个cell代表了一个候选图片。在图中，我们还假设了一个真实产品中经常出现的、来自运行在PS4上的Netflix应用的调用流。

Netflix的实验平台探秘——A/B测试

Netflix PS4 App调用Netflix API。作为调用的一部分，它负责传输一个包含用户及其设备相关的会话层信息的JSON负载。
调用被PS4 App团队编写的脚本处理。该脚本运行在Netflix API的Client Adaptor Layer，而该层包含了Client App团队所编写的与其应用相关的脚本。每一个这样的脚本都配备了他们自己的独特REST端点。这使得Netflix API可以在保证每一个应用对特定逻辑控制权的同时，拥有大部分应用都拥有的通用功能。PS4 App Script调用我们团队维护的、封装在Netflix API内部的A/B Client库。该库允许与我们的后端服务器和其他内部Netflix服务进行通信。
A/B Client调用其他服务集来收集有关会员和设备的其他相关信息。
然后，A/B Client调用A/B服务器进行评估，将所有收集到的相关信息发送到服务器。
在评估阶段：
a. A/B服务器找到该会员已经被分配到的所有测试/cell组合。
b. 对于采用分批分配方法的测试，具体分配情况在该阶段已经明确。
c. 对于利用实时分配方法的测试，A/B服务器会评估相关信息来决定会员是否应该被分配到其他测试中。如果的确是这样，会员就被分配过去。
d. 一旦所有的评估和分配完成，A/B服务器将完整的测试及cell集发送到A/B Client，后者再将其传递到PS4 App Script。需要注意的是，PS4 App并不知道用户是否已经在给定的测试中体验了若干周还是只有若干秒。它也不需要知道或者关心这个信息。
在收到测试/cell组合后，PS4 App Script根据当前客户端请求可用的测试采取行动。在我们的例子中，它会利用该信息来选择由拥有名称元数据的服务返回的、与需要显示的名称相关联图片的合适部分。需要注意的是，实验平台实际上并不控制这一行为：它依赖于实际实现给定测试中每一个体验的服务。
PS4 App Script（通过Netflix API）告诉PS4 App显示哪张图片以及PS4 App为了正确渲染UI需要执行的是哪些其他操作。

现在，我们已经理解了调用流。接下来，就让我们更加详细地了解“A/B服务器”。

实验平台

Netflix的实验平台探秘——A/B测试

上一节中所描述的分配和获取请求会通过REST API端点传递到我们的服务器。包含分配规则在内的每个测试的测试元数据存储在Cassandra数据库中。正是通过将这些分配规则与A/B Client传递的上下文信息进行比对，来决定一个会员是否适合参与到测试中（例如，用户是否在澳大利亚，利用PS4，而且从来没有用过PS4应用的这个版本）。

会员分配也保存在Cassandra中。为了减少Cassandra的直接调用数目，我们在其前端以 EVCache 集群的形势添加了一个缓冲层。当一个应用发出针对当前分配的请求时，A/B Client首先检查EVCache来获取与该会员相关的分配记录。如果该信息在过去的3个小时（缓冲的TTL时间）内被请求过，EVCache将返回一份分配的拷贝。否则，A/B服务器直接访问Cassandra，而后者将分配传递给A/B Client，同时在EVCache中进行缓存。

当一个A/B测试的分配发生时，我们需要决定放置每一位会员的那个cell。为了能够从测试中得出统计意义上的结论，cell中的元素要尽可能的同源。因此，这一步的处理一定要非常小心。同源的程度是通过一个包含国家、设备类型（如智能电视、游戏终端等）等关键信息集来进行评估的。因此，我们的目标是保证每一个cell包括了来自每个国家的相似比例的会员，会员使用相似比例的设备类型等。纯粹的随机抽样可以通过在一个cell中分配较多的澳大利亚游戏终端的用户来使得测试结果有所偏重。为了避免该问题，我们采用了能够维护跨多个关键维度的同源性的分层抽样法。由于分层抽样的实现非常复杂，我们计划以后通过一篇专门的文章进行介绍。

在分配过程的最后一步，我们将分配的细节放在了Cassandra，并使得与该会员相关的A/B缓存失效。结果，在下次我们收到有关该会员的分配请求时，我们会遇到一次缓存丢失，并执行之前提到的缓存相关的步骤。

我们还将分配事件同步发布到了Kafka数据流水线，从而转存到若干个数据仓库中。对于定制化的分析和Netflix的A/B测试可视化及分析工具Ignite，发布到Hive表的转存操作提供了一个数据源。正是在Ignite内，测试者分析感兴趣的量度，并评估测试结果。有关Ignite，你可以期待我们会在未来的博客中对其进行详细介绍。

我们技术栈的最近更新就是添加了Spark Streaming。它负责在从Kafka流中摄入数据，并将数据转换后送入ElasticSearch进行留存，使得我们可以在ABlaze中以近乎实时的方式展示更新。我们当前的用例只牵涉到了简单的量度，使得用户可以根据多个兴趣点实时浏览测试分配情况。然而，这些内容为我们不久的将来进行复杂的实时分析打好了基础。

未来工作展望

以上描述的架构至今一直工作很好。我们会继续支持更加广泛的领域集：UI、推荐、回放、搜索、邮件、注册等等。通过自动扩展，我们可以轻易应对每秒15万-45万个请求的平台典型流量。从响应性来看，提取现有分配的延迟范围为8ms（当缓存还没热起来时）到小于1ms（缓存热起来以后）。实时评估相对花费的时间要长一些，大概为50ms。

然而，随着会员基数不断迅速扩张，A/B测试的速度和类型也在迅速增加。从某些角度来看，我们之前所描述的架构一直停留在2010年左右（Kafka等时例外）。从2010年到现在，