key results
从样本规模、留存率数字,到 p 值、贝叶斯概率、SRM 验证,快速定位关键数字。
methodology
先验证实验设计的合理性,再用频率派检验给出显著性结论,最后用贝叶斯框架交叉验证,给出直觉友好的概率形式结论。
期望分组比例 1:1,实际偏差 0.89%。卡方检验 p=0.0086 虽统计显著,但属于大样本(9 万)放大微小随机误差,并非分流故障信号。同等偏差在 1000 人样本下不会触发显著性,实验结论有效。
对 1 日留存和 7 日留存分别做双比例 z-test,输出 p 值与 95% 置信区间。7 日留存 p=0.0016,CI 下限 0.31%,在行业留存基准(约 15-18%)下具有业务意义。1 日留存 p=0.0744,CI 跨零,方向不明。
Beta(1,1) 均匀无信息先验,对两组各采样 100,000 次逐次比较。7 日留存 P(gate_30 > gate_40)=0.9992,1 日留存 P=0.9627。两套框架方向完全一致,结论置信度高。
findings
1 日留存:频率派 p=0.0744,95% CI [-0.0006, 0.0124] 跨零,未达统计显著;贝叶斯 P(gate_30 > gate_40)=0.9627,方向倾向 gate_30 但不确定性较高。两套框架均无法对 1 日留存给出明确结论。
7 日留存:频率派 p=0.0016,95% CI [0.0031, 0.0133],gate_30 显著优于 gate_40;贝叶斯 P(gate_30 > gate_40)=0.9992。两套框架方向完全一致,7 日留存差异稳健可信。
效应量解读:CI 下限 0.31%,在行业 7 日留存基准约 15-18% 的背景下,1% 量级的提升具有实际业务意义。p 值确认显著性,CI 给出效应量范围,两者回答不同维度的问题。
业务建议:不上线 gate_40。7 日留存在两套框架下均指向 gate_30 更优,1 日留存无正向信号,gate_40 无任何优势证据。在变现数据缺失的情况下,这是保守但有据可查的判断。
本次分析不含变现数据。若产品团队认为"玩更多关卡 → 更多付费",建议补充以下指标后再决策:各分组 ARPU(每用户平均收入)、两组 sum_gamerounds 分布差异、付费转化率对比。在变现数据缺失的情况下,仅凭留存结论建议不上线。
visualization
gate_30 在 1 日和 7 日留存上均高于 gate_40。7 日留存差距(0.1902 vs 0.1820)在频率派和贝叶斯框架下均显著,是最终建议的主要依据。

两组后验分布重叠较多,P(gate_30 > gate_40)=0.9627,与频率派 p=0.0744 方向一致但置信度不足,1 日留存结论不确定。

两组后验分布几乎完全分离,P(gate_30 > gate_40)=0.9992,与频率派 p=0.0016 完全印证,7 日留存结论高度可信。

code highlight
展示贝叶斯分析的核心实现。完整四步分析代码(EDA、SRM、频率派、贝叶斯)保留在 GitHub 仓库中。
用 Beta 共轭先验对两组留存率建模,100,000 次 Monte Carlo 采样计算 gate_30 胜出概率。贝叶斯框架不依赖 p 值阈值,直接给出概率形式的结论。
import numpy as np
from scipy import stats
# 从数据中提取成功次数与失败次数
# gate_30 7日留存
s30 = retention_7_gate30.sum() # 成功(留存)
f30 = len(retention_7_gate30) - s30 # 失败(流失)
# gate_40 7日留存
s40 = retention_7_gate40.sum()
f40 = len(retention_7_gate40) - s40
# Beta 共轭先验:Beta(1, 1) 均匀无信息先验
# Posterior 更新:Beta(1 + 成功, 1 + 失败)
post_gate30 = stats.beta(1 + s30, 1 + f30)
post_gate40 = stats.beta(1 + s40, 1 + f40)
# Monte Carlo 采样:各采样 100,000 次
np.random.seed(42)
n_samples = 100_000
samples_30 = post_gate30.rvs(n_samples)
samples_40 = post_gate40.rvs(n_samples)
# 计算 gate_30 胜出概率
prob_30_wins = (samples_30 > samples_40).mean()
print(f"P(gate_30 > gate_40) | 7日留存 = {prob_30_wins:.4f}")
# 输出:P(gate_30 > gate_40) | 7日留存 = 0.9992data
limitations
project value
本项目覆盖了实验设计合理性验证(SRM)、频率派假设检验(双比例 z-test)、贝叶斯推断(Beta-Binomial + Monte Carlo)的完整 A/B 测试分析流程,重点体现实验分析思维、双框架结论交叉验证能力,以及效应量解读与业务建议的落地意识。