转载

网站指标差异显著性检验——卡方检验

三个网站分析中常见的场景:A,B两版广告创意,A版本转化率4.94%,B版本转化率5.75%,是否说明B版本比A版本转化效果好?网站首页对于新访客跳出率65.26%,老访客跳出率64.92%,是否说明新老访客在首页跳出率存在显著差异?男性用户在注册流程中退出率为15.99%,女性用户退出率为14.83%,是否说明男女用户在网站的注册流程中的表现有显著差异?

网站指标差异显著性检验——卡方检验

本篇文章通过卡方检验来对网站分析中这三个常见的场景进行检验,用来说明这些指标间的差异是由偶然因素引起的还是在统计学上具有显著性意义。卡方检验主要用来检验实际数据与理论数据分布是否一致,或说有无显著差异问题。

A/B版本广告转化率效果是否有差异?

A,B两版广告创意,A版本转化率4.94%,B版本转化率5.75%,是否能说明B版本转化效果比A版好?

建立假设

首先建立假设:

  • 虚无假设:A B两版广告创意在转化率上不存在显著差异。
  • 备择假设:A B两版广告创意在转化率上存在显著差异。

实测值

以下是A,B两版广告的访问量和购买数量。

网站指标差异显著性检验——卡方检验

我们将A,B版本广告的访问量数据分为产生购买的访问量和为产生购买的访问量,并进行转置,以获得用于进行卡方检验的实测值数据。以下是数据整理方法以及经过整理和分类后广告创意A,B的实测值数据。

网站指标差异显著性检验——卡方检验

网站指标差异显著性检验——卡方检验

期望值

除了实测值以外,还需要计算A B广告创意的理论值,也就是期望值。以下是期望值的计算公式。

网站指标差异显著性检验——卡方检验

  • 未购买数量占总访问量的比例为2135/2254
  • 购买数量占总访问量的比例为119/2254
  • 广告创意A未购买数量的期望值为1135*2135/2254
  • 广告创意A购买数量的期望值为939*2135/2254
  • 广告创意B未购买数量的期望值为1135*119/2254
  • 广告创意B购买数量的期望值为939*119/2254

按公式我们计算出了广告创意A和广告创意B未购买数量及购买数量的期望值数据。

X及P值

根据实测值和期望值,根据拟合度公式可以求出X的值

网站指标差异显著性检验——卡方检验

这里还有另一种简化的公式,可以不必计算期望值直接求出X的值。

网站指标差异显著性检验——卡方检验

根据已知的X值,可以求得P值为0.39。0.39>0.05。因此接受接受原假设,广告创意A和广告创意B不存在显著差异。

网站指标差异显著性检验——卡方检验

新老访客在跳出率上是否有差异?

网站首页对于新访客跳出率65.26%,老访客跳出率64.92%,是否说明新老访客在首页跳出率存在显著差异?

建立假设

首先建立假设:

  • 虚无假设:新老访客在跳出率上不存在显著差异。
  • 备择假设:新老访客在跳出率上存在显著差异。

实测值

以下是新老访客的访问量和跳出量的具体数据。

网站指标差异显著性检验——卡方检验

通过整理和行列转换我们获得了新老访客的实测值数据。

网站指标差异显著性检验——卡方检验

期望值

获得实测值数据后就可以按照前面的简化公式计算X值了。如果要使用拟合度公式,就还需要按理论分布计算出新老访客的期望值数据。以下为计算完成的期望值数据。

网站指标差异显著性检验——卡方检验

X及P值

根据实则值和期望值,计算出x值及P值。P值为0.03<0.05。因此可以认为在95%的置信区间下拒绝原假设。新访客与老访客存在显著差异。

网站指标差异显著性检验——卡方检验

男性用户与女性用户流失率是否有差异?

男性用户在注册流程中退出率为15.99%,女性用户退出率为14.83%,是否说明男女用户在网站的注册流程中的流失情况有显著差异?

建立假设

首先建立假设:

  • 虚无假设:男性用户与女性用户在流失率上不存在限制差异。
  • 备择假设:男性用户与女性用户在流失率上存在显著差异。

实测值

以下是男性用户和女性用户访问量和退出量数据。

网站指标差异显著性检验——卡方检验

通过对原始数据进行整理和行列转换我们获得了实测值数据。

网站指标差异显著性检验——卡方检验

期望值

按理论分布计算出男性用户和女性用户的期望值数据。

网站指标差异显著性检验——卡方检验

X及P值

根据实际值和期望值数据计算出X值及P值,这里P值为0.005。0.005<0.01,因此可以认为在99%的置信区间下拒绝原假设。男性用户与女性用户存在显著差异。

网站指标差异显著性检验——卡方检验

这里有朋友可能会有些疑问,A B版本广告转化率的差异为5.75%-4.94%=0.81%,而新老访客跳出率的差异为65.26%-64.92%=0.34%。为什么差异较大的A B版本广告在转化率上不存在显著差异,而新老访客在跳出率上则是存在显著差异呢?这和场景中访问量的绝对值有关,把广告转化率和新老访客跳出率的场景理解为抛硬币实验,把访问量理解为实验的次数。10万次实验比1千次实验中出现的差异更加显著。

—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—

原文  http://bluewhale.cc/2016-03-05/chi-square-test.html
正文到此结束
Loading...