算法原理 · 评估指标 · 真实案例 · 酒旅应用 · 闭环流程
将数据分成K个簇,簇内相似度最高,簇间相似度最低
随机初始化K个中心点 → 将每个数据点分配到最近的中心 → 重新计算每个簇的中心 → 迭代直到收敛。
数据标准化(去量纲)→ 肘方法确定K值 → K-Means聚类 → 轮廓系数验证 → 业务命名每类 → 制定差异化策略 → A/B测试验证 → 效果复盘迭代
Q:K值怎么选?A:先用肘方法找拐点,再结合业务可解释性调整。比如分成3类业务能理解、4类也能理解,那就选业务方更认可的那个。
Q:K-Means的缺点?A:对异常值敏感、初始中心点影响大(可用K-Means++优化)、只能处理球形簇、需要预先指定K值。
衡量两个连续变量之间的线性相关程度,取值[-1, 1]
计算两个变量的协方差,除以各自标准差的乘积。本质是标准化后的协方差,消除了量纲影响。
提出业务假设 → 收集两个变量数据 → 画散点图初步判断 → 计算Pearson r和p值 → 判断相关性强弱 → 进一步做回归分析确认因果关系 → 制定策略 → 实验验证
相关 ≠ 因果! 冰淇淋销量和溺水人数正相关,不是因为冰淇淋导致溺水,而是因为夏天两者都增多(混淆变量:气温)。做因果推断需要用AB测试或DID等因果推断方法。
计算两个时间序列相似度,允许时间轴伸缩扭曲,解决传统欧氏距离无法处理时间偏移的问题
构建两个序列的距离矩阵 → 用动态规划找到累计距离最小的规整路径 → DTW距离 = 路径上所有点的距离之和。允许一个序列的某个点对应另一个序列的多个点,实现"时间伸缩"。
确定目标序列和候选序列 → 数据标准化 → 计算DTW距离矩阵 → 输出最相似Top N序列 → 业务验证匹配合理性 → 基于历史相似序列预测未来 → 实际值与预测值对比复盘
线性回归预测连续变量,逻辑回归预测二分类概率
| 指标 | 线性回归 | 逻辑回归 |
|---|---|---|
| 拟合度 | R²(越接近1越好) | AUC(越接近1越好,>0.7可用) |
| 系数显著性 | p值(p<0.05显著) | p值(p<0.05显著) |
| 诊断 | 残差图(检查异方差性) | 混淆矩阵、准确率、召回率、F1 |
确定因变量和候选自变量 → 数据清洗和特征工程 → 相关性初筛 → 逐步回归/正则化选变量 → 训练模型 → 检验R²/AUC和p值 → 残差诊断 → 业务解读系数含义 → 输出影响因素排序 → 制定优化策略
分析多个因素对事件发生时间的影响,常用于流失分析和留存分析
不直接建模生存时间,而是建模"风险函数"——在时刻t仍然存活的前提下,下一瞬间发生事件的概率。通过偏似然估计来估计各因素的系数。
定义"事件"(流失/倒闭)和时间窗口 → 确定候选影响因素 → Cox回归建模 → 识别显著因素(p<0.05)→ 输出风险比排序 → 计算每个用户的风险得分 → 高风险用户定向干预 → 跟踪干预前后生存曲线变化
先提出假设,再用样本数据检验假设是否成立
| 检验方法 | 适用场景 | 例子 |
|---|---|---|
| T检验 | 比较两组均值差异 | 实验组 vs 对照组 GMV差异 |
| 卡方检验 | 比较两个分类变量的相关性 | 性别和是否下单的相关性 |
| 方差分析(ANOVA) | 比较三组及以上均值差异 | A/B/C三组转化率对比 |
明确业务问题 → 提出H₀和H₁ → 选择合适检验方法 → 计算所需样本量 → 收集数据 → 计算检验统计量和p值 → p<0.05则拒绝H₀(策略有效)→ 结合业务判断是否落地
根据历史时间序列数据预测未来值,是经营分析中最常用的预测手段
| 方法 | 特点 | 适用场景 |
|---|---|---|
| 移动平均(MA) | 简单直观,平滑噪声 | 短期趋势判断 |
| 指数平滑(ES) | 近大远小加权,有趋势和季节性变体 | 中期预测 |
| ARIMA | 经典模型,需序列平稳 | 中短期预测 |
| Prophet | Facebook开源,自动处理节假日、趋势、季节性 | 有强季节性和节假日效应的序列 |
收集历史时序数据 → 可视化检查趋势/季节/周期 → 数据清洗(处理缺失值和异常值)→ 选择模型(Prophet首选)→ 训练 + 交叉验证 → 输出预测值和置信区间 → 与实际值对比 → 计算MAPE/MAE评估准确率 → 迭代优化模型 → 业务应用(备货/排期/目标拆解)
将用户转化过程分解为多个步骤,分析每步转化率,定位流失卡点
定义转化路径 → 统计每步用户数 → 计算相邻步骤转化率 → 可视化漏斗图 → 找到转化率最低的步骤 → 针对性优化。
每一步的转化率都对应不同的运营手段:曝光到点击靠内容质量,下单到支付靠价格竞争力,核销到复购靠服务体验。
定义转化路径和各步骤口径 → 拉取全链路数据 → 计算每步转化率和整体转化率 → 与行业benchmark对比 → 定位最大流失卡点 → 拆解卡点原因(用户访谈+数据下钻)→ 提出优化方案 → A/B测试验证 → 跟踪漏斗变化 → 持续迭代
根据最近消费时间(R)、消费频率(F)、消费金额(M)对用户进行价值分层
每个维度取中位数分为"高"和"低",组合成 2³ = 8 类用户。
| R | F | M | 用户类型 | 策略 |
|---|---|---|---|---|
| 高 | 高 | 高 | 重要价值用户 | VIP服务、专属权益 |
| 高 | 高 | 低 | 重要发展用户 | 推高端产品、提高客单价 |
| 高 | 低 | 高 | 重要保持用户 | 提高消费频次、推送关联产品 |
| 高 | 低 | 低 | 重要挽留用户 | 优惠券召回、专属活动 |
| 低 | 高 | 高 | 一般价值用户 | 维持现状、定期触达 |
| 低 | 高 | 低 | 一般发展用户 | 提升客单价 |
| 低 | 低 | 高 | 一般保持用户 | 提高活跃度 |
| 低 | 低 | 低 | 一般挽留用户 | 低成本触达或放弃 |
确定时间窗口(如过去180天)→ 计算每个用户的R/F/M值 → 取各维度中位数分高低 → 组合成8类 → 为每类制定差异化运营策略 → 分群触达 → 跟踪各组响应率和ROI → 迭代分层标准
用随机对照实验验证策略效果,是数据驱动决策的核心手段
确定核心指标(如转化率、GMV)和护栏指标(如退单率、客诉率)
H₀:新旧无差异;H₁:新方案效果更好
根据预期提升幅度、α=0.05、β=0.8(功效80%)计算所需最小样本量
保证实验组和对照组用户特征一致,避免选择偏差
运行足够长时间(至少1-2个完整业务周期),不提前偷看结果
T检验/卡方检验计算p值,p<0.05且效果符合预期 → 显著
显著+正向 → 全量上线;显著+负向 → 放弃;不显著 → 增加样本或优化方案
| 场景 | 公式 |
|---|---|
| 补贴ROI | (实验组GMV - 对照组GMV) / 实验组补贴投入 |
| 营销ROI | (活动带来的GMV - 活动成本) / 活动成本 |
| 商家扶持ROI | (扶持后商家GMV增量 - 扶持成本) / 扶持成本 |
| 达人合作ROI | (达人带货GMV - 坑位费 - 佣金) / (坑位费 + 佣金) |
冬至项目补贴投入1.2亿,实验组GMV比对照组多6.12亿 → ROI = (6.12-1.2)/1.2 = 1:4.1。如果加上长期留存收益,实际ROI达到1:5.1。
将统计学方法系统性地映射到酒旅经营分析的5大核心场景
| 场景 | 核心方法 | 关键产出 | 业务价值 |
|---|---|---|---|
| 用户分层与精准运营 | K-Means + RFM | 8类用户画像 + 差异化策略 | 提升转化率、降低流失 |
| 节假日需求预测 | Prophet + DTW | 城市×景区×时段客流预测 | 提前储备供给、避免爆单 |
| 商家经营健康度诊断 | 相关性分析 + 回归分析 | GMV影响因素排序 + 提升建议 | 精准帮扶、提升平台GMV |
| 用户流失分析 | Cox回归 + 生存分析 | 高风险用户名单 + 流失因素排序 | 召回高价值用户、降低流失率 |
| 策略效果评估 | AB测试 + T检验 | p值 + ROI + 置信区间 | 数据驱动决策、避免拍脑袋 |