project · olist cancellation modeling

Olist 取消风险建模

从描述性发现 到 逻辑回归验证支付方式与金额的交互效应。Fisher 精确检验确认信号,全量回归排除混淆,交互项验证组合放大效应。

项目定位

分析重点
建模验证、混淆控制、交互效应识别。
技术栈
SQL(CTE、ROW_NUMBER、JOIN)、Python(statsmodels、scipy、scikit-learn)。
与主项目关系
Olist 经营分析项目的延伸建模。描述性发现 → 因果验证。

model results

核心建模结果

三层分析的核心数字一览:从样本规模、类别不平衡,到 Fisher 检验、独立效应、交互项放大效应。

分析样本量
78,126
仅保留 voucher + credit_card
类不平衡比
149 : 1
未取消 77,606 vs 取消 520
Fisher OR(300+ 区间)
31.55
p < 0.000001
Voucher 独立效应
OR = 1.39
控制金额后仍显著
金额独立效应
OR = 1.15
控制支付方式后仍显著
交互项放大效应
OR = 1.09
高金额 × Voucher 组合

methodology

三层分析路径

不同精度的问题用不同方法回答。三层依次回答信号是否存在、控制变量后是否仍显著、组合是否产生超线性放大。

step 01
Fisher 精确检验
300+ 区间,纯单一支付口径

高价区间 Voucher 样本仅 75 条,大样本卡方近似不再可靠,改用 Fisher 精确检验避免假设失效。直接比较两种支付方式的取消率差异,回答信号是否存在。

step 02
基础逻辑回归
全量 78,126 条订单

特征:is_voucher、payment_value。在全量数据上估计两者各自的独立效应,回答控制金额后 Voucher 效应是否仍显著,排除 Voucher 取消率高仅因金额高的混淆假设。

step 03
交互项逻辑回归
新增 voucher × payment_value

用交互项捕捉高金额 + Voucher 是否存在超出单独效应的组合放大。statsmodels Logit 拟合,输出系数、p 值、95% CI,并用 AIC 对比基础模型判断是否为有效信息。

findings

三层分析的核心结论

1

Fisher 精确检验:300+ 区间 Voucher 取消率 20.00%(15/75),信用卡仅 0.79%(65/8268),Odds Ratio 31.55,p < 0.000001。差异不可能由抽样波动解释,高价区间确实存在 Voucher 异常风险。

2

基础逻辑回归:在全量数据上控制金额后,Voucher 支付本身仍独立提升取消概率约 39%(OR=1.39,95% CI [1.33, 1.45]),金额每升高一个标准差额外提升约 15%(OR=1.15)。两个效应都不被对方解释掉,排除混淆假设。

3

交互项逻辑回归:voucher × payment_value 交互项 OR=1.09,95% CI [1.06, 1.13],p < 0.0001。模型 AIC 从 6083 降至 6049,加入交互项是有效信息而非噪声。在 Voucher 用户中,金额对取消率的放大作用比信用卡用户更强,组合风险并非简单叠加。

4

三层互相印证:高价区间的极端差异(Fisher OR=31.55)在全量数据上被分解为支付方式独立效应、金额独立效应、组合放大效应三个分量,且都在统计上显著。从描述性发现到因果验证的链路完整闭合。

visualization

交互项模型 Odds Ratio

展示三个特征的 OR 及 95% 置信区间。voucher × payment_value 交互项橙色高亮,红色虚线为 OR=1 的 baseline。三个 OR 均显著大于 1,且交互项不被两个独立效应吸收。

odds_ratio.png
Odds Ratio with 95% CI

交互项 OR=1.09 看似不大,但需要结合两点理解:一是已经控制了 Voucher 与金额的独立效应,交互项捕捉的是两者之外的额外放大;二是 AIC 从 6083 降至 6049 说明加入交互项是有效信息而非噪声。换言之,高金额 + Voucher 的风险组合不是两者风险的简单叠加。

code highlight

关键代码片段

网页中只展开 1 段最能体现项目能力的建模代码,完整 notebook 与三层分析代码保留在 GitHub 仓库中。

interaction_logit.py · 交互项逻辑回归

用 statsmodels Logit 拟合含交互项的逻辑回归,输出 OR 与 95% 置信区间。交互项的显著性是验证高金额 + Voucher 组合放大效应的关键。

01_modeling.py
# 第六部分:交互项逻辑回归
features_inter = ['is_voucher', 'payment_value', 'voucher_x_value']

scaler_inter = StandardScaler()
X_inter = scaler_inter.fit_transform(df[features_inter])
X_inter = sm.add_constant(X_inter)

model_inter = sm.Logit(y, X_inter).fit(disp=0)

# 提取 OR 与 95% CI
print("Odds Ratio(交互项模型):")
pvals_inter = model_inter.pvalues.values[1:]
for name, coef, (lo, hi), p in zip(
        features_inter,
        model_inter.params[1:],
        model_inter.conf_int().iloc[1:].values,
        pvals_inter
):
    print(f"  {name:20s}  OR={np.exp(coef):.4f}  "
          f"95%CI=[{np.exp(lo):.4f}, {np.exp(hi):.4f}]  "
          f"p={p:.4f}")

# 输出:
#   is_voucher       OR=1.30  95%CI=[1.23, 1.37]  p<0.0001
#   payment_value    OR=1.10  95%CI=[1.05, 1.16]  p<0.0001
#   voucher_x_value  OR=1.09  95%CI=[1.06, 1.13]  p<0.0001
# AIC: 6083 → 6049(基础模型 vs 交互项模型)

challenge

项目难点与处理

样本不平衡严重(149 : 1),交叉表分析改用 Fisher 精确检验,回归模型通过显著性检验与置信区间评估稳健性,避免直接套用准确率指标误判模型表现。
300+ 区间纯 Voucher 样本仅 75 条,大样本卡方检验的近似条件不成立,改用 Fisher 精确检验,结论稳健但置信区间偏宽,已在局限性中明确标注。
区分混淆效应与真实效应:描述性统计无法回答 Voucher 取消率高是否仅因金额高,引入逻辑回归控制变量后才能分离两者的独立贡献。
区分简单叠加与组合放大:通过对比基础模型与交互项模型的 AIC 差异(6083 → 6049)以及交互项的显著性,确认组合效应不是噪声。

business action

业务建议

干预时机明确
66% 的取消发生在下单后 1 小时内,属于即时反悔型风险,干预窗口集中。建议对 300+ 纯 Voucher 订单增加支付后确认环节。
可量化收益
若将 Voucher 取消率降至信用卡同水平,预计可减少 72 单取消,挽回 GMV 约 19,658 元。风险组合特征明确、可干预、损失可量化。
适合优先治理
该组合在描述性、Fisher 检验、回归三层证据上均显著,干预方案具体且收益可估,适合作为优先治理对象。

data

数据与样本

数据来源:Brazilian E-Commerce Public Dataset by Olist(Kaggle)
核心表:olist_orders_dataset、olist_order_payments_dataset
分析样本:78,126 条订单(仅保留 voucher 与 credit_card)
目标变量:is_canceled(取消=1,未取消=0)
样本分布:未取消 77,606 条,取消 520 条(约 149 : 1)

limitations

局限性

300+ 区间纯 Voucher 订单仅 75 条,Fisher 检验结论反映强信号但置信区间较宽,需更大样本进一步验证。
回归模型未引入买家、卖家、品类等控制变量,部分效应可能被未观测因素吸收。
数据为 2016–2018 年巴西市场,结论的外部效度需谨慎推广。

project value

项目价值

本项目完整覆盖了从描述性发现、混淆假设识别、检验方法选择,到逻辑回归控制变量、交互项验证组合效应的因果建模流程,重点体现统计方法选择能力、混淆控制意识与建模结论解释能力,是 Olist 经营分析项目从描述统计走向因果验证的延伸闭环。