数据分析师 Prompt 指令库

个人 AI 武器库 · 已验证好用的 Prompt 合集

覆盖数据分析师、商业分析师、经营分析师日常高频场景，每条指令均经过实战验证，支持一键复制，持续迭代更新。50条精选指令 × 8大场景分类 × 35+已验证。

精选指令

场景分类

35+

已验证好用

📖 使用指南：如何将 Prompt 变成你的武器

STEP 1 · 选

按场景分类找到需要的 Prompt，点击展开查看完整指令

STEP 2 · 改

将 Prompt 中的【】占位符替换为你的实际数据、场景、参数

STEP 3 · 验

在 ChatGPT / Claude / DeepSeek 等工具中执行，观察输出质量

STEP 4 · 存

将好用的结果和调整后的 Prompt 收藏到你的个人知识库

🔍

🧹 数据清洗与预处理 🔍 EDA探索分析 📊 统计建模与ML 🎨 数据可视化 🗄️ SQL查询与数据库 📝 业务报告与洞察 🚨 异常检测与归因 🧪 AB测试与实验

🧹数据清洗与预处理7 条指令

Pandas 数据质量全面诊断

一键生成数据质量报告：缺失值、重复值、异常值、数据类型

已验证核心

▼

📋 完整 Prompt

我有一份数据集，请帮我用 Python (Pandas) 进行全面的数据质量诊断，包括：
1. 基本信息：行数、列数、每列的数据类型、内存占用
2. 缺失值分析：每列缺失数量、缺失率、缺失模式（MCAR/MAR/MNAR 判断）
3. 重复值检测：完全重复行和关键列重复的识别
4. 异常值检测：对数值列用 IQR 方法和 Z-Score 方法分别检测
5. 数据一致性：检查日期格式、类别编码、数值范围是否合理
6. 生成一份简洁的数据质量评分卡（每列 0-100 分）

请输出完整的 Python 代码，并解释每步的结果含义。数据集文件路径为【data.csv】

💡 使用技巧：将【data.csv】替换为实际文件路径。适合拿到新数据集的第一步操作，快速了解数据质量全貌。

缺失值智能填充策略

根据缺失模式自动选择最优填充方法（KNN/Iterative/中位数/前向填充）

已验证

▼

📋 完整 Prompt

请帮我处理数据集中的缺失值，要求：
1. 先分析每列的缺失率和缺失模式
2. 对缺失率 > 50% 的列，建议直接删除并说明理由
3. 对缺失率 10%-50% 的列，用 KNNImputer / IterativeImputer 填充
4. 对缺失率 < 10% 的数值列，用中位数填充；分类列用众数填充
5. 对时间序列列，用前向填充 (ffill) 或线性插值
6. 每步填充后验证分布是否偏移（用 KS 检验对比填充前后分布）
7. 输出填充前后的描述性统计对比表

数据集：【df.describe() 结果或前10行数据】

💡 使用技巧：将数据集的前几行或 describe() 结果粘贴进去，AI 可以根据实际数据特征给出针对性方案。对时间序列数据特别有效。

多源数据合并与对齐

多表 Join、时间对齐、维度统一处理的完整方案

已验证常用

▼

📋 完整 Prompt

我有多个数据源需要合并分析：
- 表A：订单表（order_id, user_id, order_date, amount, city）
- 表B：用户表（user_id, register_date, user_level, channel）
- 表C：城市表（city, province, city_tier, population）

请帮我：
1. 设计合并逻辑（用哪种 Join，以哪个表为主表）
2. 检查合并前后的行数变化，说明原因
3. 如果存在一对多关系，说明如何聚合
4. 时间维度对齐：如果表A是日粒度、表C是月粒度，如何处理
5. 输出完整的 Python 合并代码，包含数据验证步骤
6. 生成合并后的数据字典

💡 使用技巧：把自己的实际表名和字段名替换进去。尤其注意说明各表之间的关联键和时间粒度。

文本数据清洗与标准化

中文文本、地址、企业名称的清洗与归一化处理

已验证

▼

📋 完整 Prompt

我有一列【企业名称/地址/酒店名称】数据需要清洗标准化，请帮我用 Python 实现：
1. 去除特殊字符、多余空格、全角半角统一
2. 公司后缀标准化：将"有限公司""有限责任公司""股份有限公司"统一为简称
3. 地址标准化：提取省/市/区三级并补全缺失层级
4. 模糊匹配去重：对相似但不完全相同的名称用 fuzzywuzzy/difflib 进行匹配度计算
5. 输出清洗前后的对比样本（前20条）
6. 统计清洗影响了多少条记录

示例数据：【粘贴你的数据】

💡 使用技巧：对于酒店名称、企业名称、地址等中文文本数据特别有用。需要安装 fuzzywuzzy 和 python-Levenshtein 库。

大规模数据分块处理

处理超出内存的大文件（GB级别CSV/Excel），分块读写+进度监控

已验证常用

▼

📋 完整 Prompt

我有一个【X GB】的大型 CSV 文件，无法一次性读入内存。请帮我用 Python 实现分块处理：
1. 使用 pandas 的 chunksize 参数分块读取（建议 chunk size 如何确定？）
2. 每个 chunk 进行【描述你要做的处理，如：过滤、聚合、转换】
3. 将处理后的结果增量写入输出文件
4. 使用 tqdm 显示处理进度
5. 如果处理逻辑涉及全局聚合（如求整体的中位数），请给出两阶段方案
6. 内存监控：每处理 N 个 chunk 输出当前内存占用

文件路径：【your_file.csv】，预估大小：【X GB】，总行数约：【N 行】

💡 使用技巧：对于百万行以上的数据必备。如果数据在数据库中，优先用 SQL 做预处理再导出。chunksize 建议从 50000-100000 开始尝试。

日期时间特征工程

从日期列自动提取时间特征用于建模（含节假日、周期性编码）

已验证

▼

📋 完整 Prompt

我有一个日期列【date_column】，请帮我做完整的日期特征工程：
1. 基础特征：年、月、日、季度、星期几（数字+中文）、是否周末
2. 周期性编码：对月份和星期用 sin/cos 变换（避免12月和1月距离被模型误判）
3. 节假日特征：标注中国法定节假日、调休工作日（请用 chinese_calendar 库）
4. 时间距离特征：距离今天的天数、距离年初的天数、距离月初的天数
5. 特殊周期：第几周、是否月初/月末、是否季初/季末
6. 如果是交易数据，额外标注：发薪日（每月10/15/20号）、618/双11等大促日期

请输出完整的 Python 代码。

💡 使用技巧：时间序列建模和预测任务的必备步骤。sin/cos 变换对树模型和神经网络都有效。需要 pip install chinese_calendar。

数据脱敏与隐私保护

对敏感字段进行脱敏处理，同时保留数据分析价值

实用

▼

📋 完整 Prompt

我需要对数据集进行脱敏处理，保留数据分析价值的同时保护隐私：
1. 手机号：保留前3后4，中间用****替代（如 138****1234）
2. 身份证号：保留前6后4，中间用****替代
3. 姓名：替换为随机生成的假名（使用 Faker 库），保持性别比例
4. 经纬度：在原始值上加随机偏移（半径【500】米内），保证相对位置关系
5. 金额：乘以随机系数（0.95-1.05），保持分布形态和统计特征
6. 脱敏后验证：检查脱敏前后关键统计量（均值、标准差、分位数）是否保持一致

数据集列名：【列出需要脱敏的列名】

💡 使用技巧：在分享数据给外部团队或做演示时必备。Faker 库可以生成中文假名。金额脱敏的随机系数范围可根据敏感度调整。

🔍探索性数据分析（EDA）6 条指令

一键生成 EDA 完整报告

自动生成包含分布、相关性、异常值的综合探索报告（Plotly交互图表）

已验证核心常用

▼

📋 完整 Prompt

请对我的数据集进行完整的探索性数据分析（EDA），包括以下模块：

【模块一：整体概览】
- 数据形状、各列数据类型、内存占用
- 数值列的五数概括（min, Q1, median, Q3, max）+ 均值 + 标准差
- 分类列的基数（唯一值数量）和 Top 5 频次

【模块二：单变量分布】
- 数值列：直方图 + KDE 密度曲线 + 箱线图（并排展示）
- 分类列：柱状图（按频次降序，标注占比）
- 标注偏度、峰度，判断是否正态分布

【模块三：双变量关系】
- 数值×数值：相关性热力图（标注系数），散点图矩阵 Top 5 强相关对
- 数值×分类：分组箱线图 + ANOVA F 值
- 分类×分类：堆叠柱状图 + 卡方检验 p 值

【模块四：目标变量分析】
- 如果指定了目标列，展示目标变量的分布形态和各特征与目标变量的关系强度排序

【模块五：关键发现总结】
- 列出 5-10 个最有价值的发现，标注需要进一步深入分析的方向

请输出完整的 Python 代码（用 plotly 做交互式图表），并将关键图表内联显示。

💡 使用技巧：这是最常用的 EDA Prompt，拿到新数据后第一步运行。如果有目标变量（如 GMV、是否转化），请在 Prompt 中指定。

特征相关性深度分析

多方法交叉验证特征间的真实关系（Pearson/Spearman/MIC/VIF）

已验证

▼

📋 完整 Prompt

请对我的数据集做深度的特征相关性分析，不要只用 Pearson 相关系数：
1. 线性相关：Pearson 相关系数矩阵（标注显著性 p 值）
2. 非线性相关：Spearman 秩相关系数 + 最大信息系数 (MIC)
3. 多重共线性：VIF 方差膨胀因子检测（VIF>10 的特征标注）
4. 冗余特征对：相关系数 > 0.85 的特征对列表
5. 对 Top 10 强相关对，分别画散点图 + 回归线 + loess 平滑线
6. 如果数据量足够大，用 Boruta 或 SHAP 做特征重要性排序
7. 结论：哪些特征组合可以合并？哪些可以降维？

请输出完整的 Python 代码和解读。

💡 使用技巧：特征工程和建模前的必做步骤。MIC 对发现非线性关系特别有用（如 U 型关系）。需要 pip install minepy boruta。

时间序列数据 EDA

针对时序数据的专项探索：STL分解、ACF/PACF、变点检测、节假日效应

已验证常用

▼

📋 完整 Prompt

我有一份时间序列数据【描述：如每日GMV/酒店入住率/订单量】，请进行专项 EDA：
1. 整体趋势：画折线图 + 移动平均线（7天/30天），标注趋势方向
2. 季节性分解：STL 或 classical decomposition，分解为趋势+季节+残差
3. 周期性检测：用自相关图 (ACF) 和偏自相关图 (PACF) 检测周期模式
4. 周效应分析：按星期几分组箱线图，标注哪些星期几显著偏高/偏低
5. 月效应分析：按月分组，看是否有明显的月度规律
6. 节假日效应：对比节假日 vs 非节假日的均值差异（t 检验）
7. 变点检测：用 ruptures 库检测时间序列中的结构突变点
8. 异常日期识别：用 IQR 或 Isolation Forest 找出异常高/低的日期

请输出完整的 Python 代码（使用 plotly 做交互图表）。

💡 使用技巧：酒旅/电商/出行等业务数据分析的必用 Prompt。变点检测能帮你找到业务策略生效的时间点。需要 pip install ruptures。

用户行为漏斗分析

从曝光到转化的全链路漏斗诊断，定位流失最大环节+优化建议

已验证常用

▼

📋 完整 Prompt

请帮我做一个完整的用户行为漏斗分析：
1. 定义漏斗层级：【如：曝光→点击→详情页浏览→加购/收藏→下单→支付】
2. 计算每一层的 UV 和 PV，以及层间转化率
3. 计算每层的流失率，标注流失最大的环节（"漏斗最窄处"）
4. 按用户分层（新用户/老用户、高活/低活）分别画漏斗，对比差异
5. 按时间维度（按天/按周）看转化率趋势，检测是否有恶化
6. 分析流失用户的特征：在流失前一步做了什么？有什么共同特征？
7. 给出优化建议：哪个环节最值得优先优化？预期提升空间多大？

数据样例格式：【user_id, step, timestamp, ...】

💡 使用技巧：电商/内容/广告分析的标配。关键是定义好漏斗层级——不要太粗（看不到问题）也不要太细（数据太稀疏）。

RFM 用户分层分析

基于最近一次消费、频率、金额的用户价值分层（含3D可视化+画像）

已验证核心

▼

📋 完整 Prompt

请对我的用户交易数据进行 RFM 分析：
1. R (Recency)：计算每个用户距离最近一次消费的天数
2. F (Frequency)：计算每个用户的消费频次
3. M (Monetary)：计算每个用户的消费总金额
4. 对 R、F、M 分别用五分位数法打分（1-5分）
5. 根据 RFM 总分将用户分为 5-8 个层级：
   - 重要价值客户（R高F高M高）/ 重要发展客户（R高F低M高）
   - 重要保持客户（R低F高M高）/ 重要挽留客户（R低F低M高）/ 一般价值客户...
6. 画 3D 散点图（R×F×M，颜色区分层级）
7. 每个层级的用户画像：平均年龄/城市/偏好品类
8. 针对每个层级给出差异化的运营策略建议

数据字段：【user_id, order_date, order_amount】

💡 使用技巧：用户运营的基础方法。打分阈值可根据业务实际调整（不一定用五分位，也可以用二八原则）。酒旅场景可以将 M 替换为核销金额。

多维交叉分析（透视表自动化）

自动生成多维度交叉分析表，ANOVA检验+热力图+洞察摘要

已验证

▼

📋 完整 Prompt

请对我的数据集做自动化多维度交叉分析：
1. 指定指标列：【如 GMV、订单量、核销率】
2. 指定维度列：【如 城市等级、星期几、节假日类型、用户层级】
3. 对每个指标×每个维度，计算交叉统计表（均值、总和、样本量）
4. 对每个维度分组，做 ANOVA 或 Kruskal-Wallis 检验，找出有显著差异的维度
5. 对有显著差异的维度，做事后两两比较（Tukey HSD）
6. 用热力图可视化交叉结果
7. 自动生成洞察摘要："【维度A】对【指标X】影响最大，其中【分组1】比【分组2】高 XX%"

请输出完整代码。

💡 使用技巧：当你有多个维度需要交叉看时，这个 Prompt 能大幅节省时间。关键是维度不要太多（3-4个为宜），否则组合爆炸。

📊统计建模与机器学习8 条指令

预测模型全流程搭建

从数据准备到模型部署的完整预测建模流程（XGBoost/LightGBM/SHAP）

已验证核心常用

▼

📋 完整 Prompt

我需要搭建一个【分类/回归/时间序列预测】模型来预测【目标变量】。请帮我完成完整的建模流程：

【数据准备】1.特征工程：缺失值处理、类别编码、数值标准化、特征交叉 2.训练集/验证集/测试集划分（时间序列用时间切分，非时序用随机切分）3.如果样本不均衡，用 SMOTE/欠采样/类别权重处理

【模型训练】4.至少训练4种模型：线性模型+树模型(XGBoost/LightGBM)+正则化模型(Ridge/Lasso)+集成模型(RandomForest) 5.对树模型做特征重要性排序和SHAP值分析

【模型评估】6.回归：MAE/RMSE/MAPE/R²/残差分布图；分类：AUC-ROC/Precision-Recall/F1/混淆矩阵/KS值 7.学习曲线判断是否过拟合/欠拟合 8.5-fold CV均值和标准差

【模型解释】9.SHAP Summary Plot + 单样本Waterfall图 10.部分依赖图(PDP)展示关键特征的非线性效应

【输出】11.模型对比表（各指标横向对比）12.最优模型的参数和配置 13.业务可落地的预测方案建议

请输出完整的 Python 代码。

💡 使用技巧：建模任务的万能模板。需要指定任务类型（分类/回归/时序）和目标变量。如果数据量大，优先用 LightGBM，速度快且效果好。

时间序列预测（多模型对比）

Prophet/ARIMA/LightGBM时序多模型对比预测与评估

已验证常用

▼

📋 完整 Prompt

我有一份时间序列数据【描述：如每日GMV/酒店预订量】，需要做未来【N天/N周】的预测。请帮我用多种方法对比：

1. Prophet（Facebook）：自动检测节假日效应、趋势变化点、周季节性。加入中国法定节假日和调休。输出趋势分量、周效应、节假日效应的分解图。

2. SARIMA：自动搜索最优(p,d,q)(P,D,Q,s)参数。用auto_arima或网格搜索。残差白噪声检验（Ljung-Box）。

3. LightGBM时序：将时序转为监督学习格式。滞后特征（lag 1/7/30）。滚动窗口统计特征。日期特征（星期几、月份、季度等）。

4. 模型对比：回测最近【30】天作为测试集，对比三个模型的MAE/MAPE/RMSE。画出预测值vs真实值对比图。画出未来【N】天的预测区间（置信区间80%/95%）。

5. 业务建议：根据预测结果给出业务决策建议。

请输出完整的 Python 代码。

💡 使用技巧：需要pip install prophet。Prophet对业务数据（有周末效应和节假日效应）表现最好。至少要有2-3个完整周期的历史数据。

K-Means 聚类 + 用户画像

从聚类到可落地的用户/商家分层画像（肘部法则+轮廓系数+雷达图）

已验证核心

▼

📋 完整 Prompt

请帮我用 K-Means 聚类做用户/商家分层分析：

【数据准备】1.选择合适的聚类特征（标准化处理）2.用肘部法则+轮廓系数确定最优K值 3.PCA降维到2D用于可视化

【聚类分析】4.执行K-Means聚类 5.画PCA 2D散点图按聚类结果着色 6.画雷达图展示每个聚类的特征均值 7.计算每个聚类的规模和占比

【画像生成】8.对每个聚类输出完整用户画像：核心特征均值对比表、与全局均值的偏离方向和幅度、为该聚类命名（如"高频高消型""价格敏感型""沉睡型"等）

【策略建议】9.针对每个聚类给出差异化的运营/营销策略 10.评估每个聚类的商业价值（当前贡献+增长潜力）

请输出完整的 Python 代码（用 plotly 做交互图表）。

💡 使用技巧：分层运营的基础方法。特征选择是关键——选什么特征决定了聚类结果的含义。建议先用业务经验筛选5-8个核心特征。

因果推断：DID 双重差分

评估策略/政策/活动的真实因果效应（平行趋势检验+安慰剂检验）

已验证常用

▼

📋 完整 Prompt

我需要用 DID（双重差分法）评估【某个策略/活动/政策】的真实效果：

【背景】处理组：【哪些城市/用户受到了策略影响】；对照组：【哪些没有受到策略影响】；干预时间：【策略生效日期】；观测指标：【如 GMV/订单量/核销率】；数据时间范围：【干预前N天→干预后N天】

请帮我完成：
1. 平行趋势检验（最关键！）：画处理组和对照组在干预前的时间趋势图。用事件研究法检验干预前各期的系数是否显著≠0。如果平行趋势不成立，给出替代方案（PSM-DID/合成控制法）。

2. DID模型估计：标准DID回归 Y=β0+β1*Treat+β2*Post+β3*(Treat×Post)+ε。加入控制变量的扩展DID。汇报ATT（处理组的平均处理效应）。

3. 稳健性检验：安慰剂检验（假设干预提前发生，看"伪处理效应"是否显著）。替换对照组（用不同方法构造对照组，看结果是否稳健）。

4. 结果可视化：画处理组vs对照组的趋势对比图（标注干预时间线）。画事件研究法的系数图（含置信区间）。

请输出完整的 Python 代码和结果解读。

💡 使用技巧：平行趋势假设是DID的生命线——如果处理组和对照组在干预前趋势不一致，DID结果不可信。需要pip install linearmodels。

Shapley Value 特征归因

用SHAP解释模型，量化每个特征对预测的贡献（Summary/Waterfall/Force Plot）

已验证

▼

📋 完整 Prompt

我已经训练好了一个【XGBoost/LightGBM/RandomForest】模型，请帮我用 SHAP 做完整的特征归因分析：

1. 全局特征重要性：SHAP Summary Plot（蜂群图）展示每个特征的整体影响方向和大小。SHAP Bar Plot特征重要性的均值排序。

2. 特征效应分析：SHAP Dependence Plot展示Top5特征的SHAP值vs特征值的散点图。识别非线性效应和交互效应。

3. 单样本解释：SHAP Waterfall图选3个典型样本（高/中/低预测值），解释为什么模型给出这个预测。SHAP Force Plot单样本加性归因可视化。

4. 业务指标归因：如果目标变量是【GMV/订单量】，将SHAP值换算为业务贡献量。例如："用户层级"特征贡献了+15%的GMV增量，"折扣力度"贡献了+8%。

5. 交互效应检测：SHAP Interaction Values检测Top5特征对之间的交互效应。用SHAP dependence plot的着色来可视化交互。

请输出完整的 Python 代码（使用 shap 库）。

💡 使用技巧：SHAP是目前最主流的模型解释工具。注意：SHAP计算量大，如果数据量超过10万行，建议先采样再计算。需要pip install shap。

假设检验完整流程

从问题定义到统计结论的标准化检验流程（t检验/ANOVA/卡方/效应量）

已验证

▼

📋 完整 Prompt

请帮我完成一个完整的假设检验流程：

【业务问题】：【描述你要验证的业务假设，如："新策略是否提升了核销率？"】

请帮我：
1. 明确H0和H1：H0（原假设）=策略无效两组无差异；H1（备择假设）=策略有效两组有显著差异

2. 选择检验方法：如果是两组均值比较→先检验方差齐性(Levene)，再选择独立t检验或Welch t检验；如果是配对样本→配对t检验；如果数据不服从正态分布→Mann-Whitney U检验；如果是多组比较→单因素ANOVA+Tukey HSD事后检验；如果是分类变量→卡方检验

3. 检验前提验证：正态性检验（Shapiro-Wilk/KS检验）；方差齐性检验（Levene/Bartlett）；如果前提不满足推荐替代的非参数方法

4. 执行检验并解读：汇报检验统计量、p值、效应量(Cohen's d/η²)；画分布对比图（箱线图+小提琴图+p值标注）；给出置信区间

5. 业务结论：用非统计语言解释结果；评估"统计显著"是否等于"业务显著"（效应量是否足够大）；给出下一步行动建议

请输出完整的 Python 代码。

💡 使用技巧：注意区分"统计显著"和"业务显著"——大样本下很小的差异也可能统计显著，但可能没有业务意义。效应量(Cohen's d)比p值更能说明实际影响。

回归分析诊断与解读

完整的OLS回归建模、四大诊断图、VIF检验、逐步回归/LASSO

已验证

▼

📋 完整 Prompt

请帮我做完整的回归分析（以【目标变量】为因变量）：

1. 模型构建：OLS回归（使用statsmodels输出完整回归表）；如果存在多重共线性(VIF>10)，用Ridge/Lasso替代；逐步回归或LASSO做特征选择

2. 模型诊断（四大诊断图）：Residuals vs Fitted检验线性假设和同方差性；Q-Q Plot检验残差正态性；Scale-Location检验同方差性；Residuals vs Leverage检验异常值和杠杆点(Cook's Distance)

3. 模型检验：F检验模型整体显著性；R²和Adjusted R²；每个系数的t检验和置信区间；异方差检验(Breusch-Pagan/White检验)；自相关检验(Durbin-Watson，对时间序列数据)

4. 结果解读：用业务语言解读每个显著变量的系数含义；区分"相关性"和"因果性"的警示；给出预测公式

5. 如果模型诊断不通过，给出改进方案（变量变换/加权最小二乘/稳健回归）

请输出完整的 Python 代码。

💡 使用技巧：回归分析的核心不是跑模型，而是诊断和解读。四大诊断图一定要画——很多时候R²很高但模型假设被严重违反。

生存分析（用户留存/流失预测）

Kaplan-Meier+Cox模型分析用户生命周期（中位生存时间+风险比）

已验证

▼

📋 完整 Prompt

请帮我用生存分析研究用户/商家的留存和流失：

【数据说明】起始事件：【如用户首次下单/商家首次入驻】；终点事件：【如用户连续30天未下单/商家退出平台】；删失数据：【研究结束时仍未发生终点事件的样本】；协变量：【如用户渠道、首单金额、城市等级】

请帮我完成：
1. Kaplan-Meier生存曲线：整体中位生存时间。按不同分组（渠道/城市/首单金额分层）画KM曲线。Log-rank检验不同组的生存曲线是否有显著差异。

2. Cox比例风险模型：建模并输出每个协变量的风险比(Hazard Ratio)。检验比例风险假设（Schoenfeld残差）。如果违反比例风险假设，考虑分层Cox或时变系数。

3. 预测与应用：预测每个用户未来【30/60/90】天的留存概率。识别"高风险流失用户"（留存概率<某阈值）。画校准曲线验证预测准确性。

4. 业务建议：哪些因素对留存影响最大？高风险用户有什么共同特征？应该在什么时间点（如第7天/第14天）进行干预？

请输出完整的 Python 代码（使用 lifelines 库）。

💡 使用技巧：生存分析比简单的"XX天留存率"包含更多信息——它考虑了删失数据和时间维度。需要pip install lifelines。特别适合订阅制/会员制的业务。

🎨数据可视化6 条指令

交互式仪表板一键生成

用Plotly生成交互式业务看板（KPI卡片+趋势图+热力图+联动）

已验证核心常用

▼

📋 完整 Prompt

请帮我用 Plotly 生成一个交互式业务数据看板，要求：

【布局】：2行×3列的subplot布局（或根据图表数量自动调整）

【图表内容】：1.左上：核心KPI卡片（总GMV、订单量、核销率、客单价，带环比箭头）2.中上：日度趋势折线图（含7日移动平均线，支持时间范围缩放）3.右上：品类/城市占比饼图或环形图（Top5+其他）4.左下：城市/品类排名横向柱状图 5.中下：热力图（如星期几×小时的订单量热力图）6.右下：散点图或气泡图（如订单量vs核销率，气泡大小=GMV）

【交互功能】：所有图表支持hover显示详细数据；图表之间联动（点击饼图的一个品类，其他图表过滤到该品类）；支持时间范围选择器；支持导出为PNG

【样式要求】：深色主题（dark template）；统一配色方案；标题清晰、坐标轴标签完整

请输出完整的 Python 代码。

💡 使用技巧：业务汇报和日常监控的利器。Plotly的make_subplots可以实现复杂布局。如果需要分享给非技术人员，可以导出为独立HTML文件。

ECharts 复杂图表生成

桑基图、关系图、中国地图、漏斗图、雷达图等高级图表

已验证

▼

📋 完整 Prompt

请帮我用 ECharts 生成一个【桑基图/关系图/中国地图/漏斗图/雷达图/仪表盘】：

【图表类型】：【选择一种】
【数据说明】：【描述你的数据结构和含义】
【样式要求】：深色背景(#0f1119)，配合亮色数据元素；渐变色方案，避免使用默认配色；添加tooltip交互提示；如果是桑基图，标注每个节点的流量大小；如果是关系图，支持拖拽和缩放；响应式设计，适配不同屏幕

请输出完整的 HTML 代码（包含 CDN 引入的 ECharts）。

💡 使用技巧：ECharts在中文环境下比Plotly更友好，特别适合桑基图（用户流转）、关系图（实体关联）、中国地图（区域数据）等场景。

对比分析可视化

多组对比、前后对比、竞品对比的专业图表（小提琴图/斜率图/雷达图）

已验证

▼

📋 完整 Prompt

我需要做【A组vsB组/干预前vs干预后/我方vs竞对】的对比分析可视化：

请帮我生成：1.并列箱线图/小提琴图：展示两组分布差异 2.镜像柱状图：左右对称展示两组数据 3.斜率图(Slope Chart)：展示每个实体的前后变化方向和幅度 4.差异瀑布图：展示各因素对总差异的贡献分解 5.雷达图：多维度对比（如我方vs竞对在价格/服务/内容/流量等维度）

【样式要求】：两组用不同颜色区分（如蓝vs橙），视觉对比强烈；标注关键差异的数值和百分比；添加统计检验结果标注（如p值、显著性星号）

请输出完整的 Python 代码（使用 plotly）。

💡 使用技巧：对比分析的关键是让差异"一眼可见"。斜率图(Slope Chart)是展示前后变化的利器，Tufte经典图表类型。

地理空间数据可视化

中国地图、城市热力、轨迹动线（ECharts/Plotly/pyecharts）

已验证

▼

📋 完整 Prompt

我有按【省份/城市】维度的数据，请帮我做地理可视化：

【数据格式】：【省份/城市名称, 指标值】

请用以下至少两种方式实现：
1. ECharts中国地图：按省份着色(choropleth)，颜色深浅表示指标大小；支持hover显示具体数值；如果是城市级别，用散点图叠加（气泡大小=指标值）
2. Plotly地理图：scatter_geo或choropleth；支持缩放和拖拽
3. pyecharts（备选）：Map类，自动匹配中文地名

【额外需求】：标注Top5和Bottom5的城市名称；添加图例和色阶；如果是时间序列，支持按时间播放动画

请输出完整的代码。

💡 使用技巧：ECharts的中国地图需要加载中国地图JSON。pyecharts内置中国地图使用更方便。注意城市名称要与地图数据中的名称一致。

PPT级别的数据报告图表

适合放入管理层汇报PPT的专业图表样式（matplotlib/seaborn）

已验证常用

▼

📋 完整 Prompt

我需要制作一张适合放入管理层汇报PPT的图表。请帮我用matplotlib/seaborn生成：

【图表内容】：【描述你要展示的数据和故事】
【关键信息】：【你想让观众一眼看到什么？如："核销率从35%提升到52%"】

【设计要求】：1.使用matplotlib+seaborn，自定义样式 2.配色方案：使用公司品牌色或专业的渐变色 3.字体：支持中文显示，标题用粗体 4.去除默认的顶部和右侧边框(sns.despine()) 5.标注关键数据点（用箭头+文字标注）6.添加副标题或注释说明数据来源和时间范围 7.分辨率：DPI=150，适合PPT嵌入 8.整体风格：简洁、专业、重点突出 9.如果要展示多个图表，用plt.subplots整齐排列

【输出格式】：保存为PNG，并提供完整的Python代码。

请生成代码。

💡 使用技巧：管理层汇报图表的核心原则：一张图只讲一个故事。去掉所有不必要的元素（网格线、多余的颜色、装饰），只保留最核心的数据和结论。

数据故事线设计

从数据到叙事：帮你设计有说服力的分析故事线（Hook→Insight→Action）

实用

▼

📋 完整 Prompt

我有一组数据分析发现，需要设计一个有说服力的数据故事线用于汇报。请帮我：

【背景】：【简要描述业务背景和要解决的问题】
【核心发现】：【列出3-5个关键数据发现】
【目标听众】：【如：CEO/业务VP/运营总监/产品经理】

请帮我设计故事线：
1. Hook（开场钩子）：用一个惊人的数字或反直觉的发现开场
2. Problem（问题定义）：清晰地定义要解决的问题
3. Analysis（分析过程）：3-5个层层递进的数据发现，每个发现配一个图表建议
4. Insight（核心洞察）：将数据发现提炼为1-2句核心洞察
5. Recommendation（行动建议）：基于洞察给出具体、可落地的建议
6. Expected Impact（预期影响）：量化建议落地后的预期效果

【图表建议】：为每个核心发现推荐最合适的图表类型，说明每个图表要突出展示的关键信息。

请输出完整的汇报大纲。

💡 使用技巧：数据分析师的软实力——同样的数据，讲不同的故事效果天差地别。一个好的数据故事应该是：1个核心观点+3-5个支撑数据点+1个行动建议。

🗄️SQL 查询与数据库6 条指令

复杂业务 SQL 编写

窗口函数、多层嵌套、多表关联的复杂查询（含性能优化建议）

已验证核心常用

▼

📋 完整 Prompt

我需要写一个 SQL 查询来实现以下业务需求：

【业务需求】：【用自然语言描述你要查什么，如："计算每个城市过去30天的新用户首单核销率"】

【数据库类型】：【MySQL/PostgreSQL/Hive/Spark SQL/ClickHouse】

【表结构】：
- 表名1：【order_table】字段：【order_id, user_id, city, order_date, amount, status, ...】
- 表名2：【user_table】字段：【user_id, register_date, channel, city, ...】

【特殊要求】：
- 考虑性能优化（大表查询，数据量约【X亿行】）
- 如果需要窗口函数，请使用ROW_NUMBER()/RANK()/LAG()/LEAD()
- 如果需要处理重复数据，请先去重
- 如果需要日期处理，请考虑时区问题
- 输出结果按【某字段】排序

请输出：1.完整的SQL语句 2.每步逻辑的注释说明 3.预期输出的字段和含义 4.性能优化建议（如：建议在哪些列上建索引）

💡 使用技巧：表结构信息越详细，SQL越准确。如果涉及多表Join，说明主键和外键关系。对大表查询，尽量在子查询中先过滤再Join。

SQL 性能优化与改写

慢查询诊断、执行计划解读、SQL重写优化（含索引建议）

已验证

▼

📋 完整 Prompt

我有一条 SQL 查询运行很慢，请帮我分析和优化：

【原始SQL】：【粘贴你的SQL】

【执行信息】：数据库类型：【MySQL/PostgreSQL/Hive】；数据量级：【各表的行数】；当前执行时间：【X秒/分钟】；已有索引：【列出相关表的已有索引】

请帮我：
1. 问题诊断：分析慢查询的可能原因——全表扫描？笛卡尔积？索引失效（隐式类型转换、函数包裹字段等）？数据倾斜？

2. SQL改写：给出优化后的SQL（可能涉及多种改写方案）——子查询优化；JOIN顺序调整（小表驱动大表）；用窗口函数替代自连接；用UNION ALL替代OR条件

3. 索引建议：推荐需要新建的索引（组合索引的顺序建议）

4. 架构建议（如果需要）：是否考虑分区表/物化视图/数据预聚合

请给出完整的分析和优化方案。

💡 使用技巧：最常见的SQL性能杀手：①SELECT * ②未使用索引的JOIN ③WHERE中对字段做函数运算 ④OR条件导致索引失效。优先解决这四类问题。

用户留存 SQL 模板

次日/7日/30日留存率的标准SQL实现（含留存矩阵+留存曲线）

已验证常用

▼

📋 完整 Prompt

请帮我写 SQL 计算用户留存率：

【数据表】：user_behavior
【字段】：user_id, event_date, event_type（如：register/order/login）

【需求】：
1. 计算新用户的次日留存、3日留存、7日留存、30日留存
2. 按注册渠道/城市/用户层级分组，分别计算留存率
3. 输出留存率矩阵（行为注册日期，列为Day1/Day3/Day7/Day30的留存率）
4. 如果数据量大，给出性能优化方案

【数据库类型】：【MySQL/PostgreSQL/Hive】

请输出：1.完整的SQL语句 2.结果样例 3.留存曲线的业务解读方法

💡 使用技巧：留存率是衡量产品健康度的核心指标。注意区分"新用户留存"和"活跃用户留存"——两者的计算基数和业务含义不同。

数据宽表构建（特征工程SQL）

用SQL构建用于建模的用户/商家维度特征宽表

已验证

▼

📋 完整 Prompt

我需要用 SQL 构建一个用户/商家维度的特征宽表，用于后续建模分析：

【主键】：【user_id/merchant_id】
【时间窗口】：【如：过去30天、过去90天、历史全量】

【需要的特征维度】：
1. 基础属性：年龄、性别、城市、注册时间、渠道
2. 行为统计（近30天）：登录天数、浏览商品数、搜索次数、下单次数、下单金额、客单价、使用优惠券次数、优惠券金额占比
3. 行为趋势：近7天vs前7天的指标变化率；近30天vs前30天的指标变化率
4. 偏好特征：最常购买的品类Top3；最常下单的时间段（早/中/晚/夜）；最常使用的支付方式
5. 标签特征：是否高价值用户；是否有流失风险（近14天未活跃）；用户生命周期阶段（新客/成长/成熟/衰退/流失）

【数据库类型】：【Hive/Spark SQL/MySQL】
【表结构】：【列出相关的表名和字段】

请输出完整的 SQL 代码，每段加注释说明。

💡 使用技巧：特征宽表是建模的基础。建议先在小样本上验证SQL逻辑正确性，再跑全量。对大数据量场景，考虑用分区表和中间表分步构建。

Python SQL 混合分析

Python连接数据库+读取数据+分析+回写的完整工作流

已验证

▼

📋 完整 Prompt

请帮我写一个 Python 脚本，完成以下数据库操作流程：

【数据库连接】：【MySQL/PostgreSQL/ClickHouse】，连接信息通过环境变量读取

【流程】：
1. 连接数据库（使用SQLAlchemy+pymysql/psycopg2）
2. 执行【你的SQL查询】，读取数据到pandas DataFrame
3. 在Python中对数据做【描述分析/清洗/建模】
4. 将分析结果写回数据库（新建表或更新已有表）
5. 关闭连接，输出执行耗时

【额外要求】：
- 使用上下文管理器(with)管理连接
- 添加异常处理和重试机制
- 如果数据量大，使用分块读取
- 添加日志记录（使用logging模块）
- 配置文件与代码分离（用config.py或.env）

请输出完整的 Python 代码。

💡 使用技巧：Python+SQL是数据分析师最常用的技术栈。推荐使用SQLAlchemy做ORM连接，pandas的read_sql可以直接将查询结果转为DataFrame。

业务口径标准化

将模糊的业务指标转化为精确的SQL计算口径（含口径文档模板）

实用

▼

📋 完整 Prompt

我需要将以下模糊的业务指标转化为精确的SQL计算口径：

【业务指标】：【如："活跃用户数""核销率""客单价""复购率""流失用户"】

请帮我：
1. 定义澄清：这个指标在业务上到底衡量什么？可能存在哪些歧义？（如"活跃用户"=登录就算？还是下单才算？）时间窗口如何定义？

2. 计算口径：分子和分母的精确定义；需要排除的异常情况（如测试用户、退款订单等）；数据源表和字段

3. SQL实现：给出至少两种计算方式（如精确计算vs近似估算）；标注每种方式的优缺点和适用场景

4. 口径文档：生成一个标准化的指标口径文档（包含：指标名称、定义、计算公式、数据源、更新频率、负责人）

【数据库类型】：【MySQL/PostgreSQL/Hive】

💡 使用技巧：数据团队最常见的痛点——同一个指标，不同人算出不同结果。根本原因就是口径不统一。建议将核心指标的口径文档沉淀到Wiki或数据字典中。

📝业务报告与洞察7 条指令

周报/月报自动化生成

从数据到结构化业务报告的全自动流程（结论先行+风险预警+下周重点）

已验证核心常用

▼

📋 完整 Prompt

请帮我根据以下数据生成一份【周报/月报/季报】：

【报告类型】：【周报/月报】
【业务线】：【如：抖音酒旅-华东大区】
【报告周期】：【2025年第X周/2025年X月】

【数据摘要】：
- 核心KPI：【GMV:X万（环比+Y%）|订单量:X万(+Y%)|核销率:X%(+Ypp)|客单价:X元(+Y%)】
- 分城市数据：【粘贴各城市的关键数据】
- 分品类数据：【粘贴各品类的关键数据】
- 竞对动态：【简要描述竞对本周的主要动作】
- 异常事件：【本周发生的特殊事件】

【报告结构要求】：
1. 核心摘要（Executive Summary）：3-5句话总结本周最关键的发现
2. KPI概览：核心指标的完成情况和趋势
3. 亮点分析：做得好的地方+原因分析+可复用的经验
4. 风险预警：需要关注的下滑指标+根因初步判断
5. 竞对动态：竞对本周动作+对我们的影响评估
6. 下周重点：3-5个下周优先级最高的事项

【风格要求】：结论先行，数据支撑；每个发现都要有"So What"（对业务意味着什么）；避免流水账，突出重点和异常

请输出完整的报告内容。

💡 使用技巧：把每次的数据和发现粘贴进去，AI可以帮你组织语言和逻辑。关键是输入数据要结构化——越清晰的数据输入，越好的报告输出。

数据洞察提炼（What→So What→Now What）

将原始数据转化为有深度的业务洞察（三层解读法+置信度标注）

已验证常用

▼

📋 完整 Prompt

我有一组数据分析结果，请帮我从中提炼出有价值的业务洞察：

【数据发现】：1.【粘贴你的数据发现1】2.【粘贴你的数据发现2】3.【粘贴你的数据发现3】...

【业务背景】：【简要描述业务现状和目标】

请对每个数据发现进行三层解读：
1. What（发生了什么）：用数据描述客观事实
2. So What（意味着什么）：这个发现对业务的影响是什么？为什么重要？
3. Now What（接下来做什么）：基于这个发现，建议采取什么行动？

【额外要求】：
- 将多个发现串联成一个完整的叙事逻辑
- 区分"相关性"和"因果性"，避免过度解读
- 标注每个洞察的置信度（高/中/低）
- 如果有反直觉的发现，重点标注

请输出结构化的洞察报告。

💡 使用技巧：数据分析师的核心价值不是"跑数"，而是"提炼洞察"。这个Prompt帮你完成从数据到观点到行动的转化。What→So What→Now What是最经典的分析框架。

竞品分析报告框架

系统化的竞品分析框架（产品/运营/数据/战略四维度+SWOT+数据收集指南）

已验证

▼

📋 完整 Prompt

请帮我搭建一个【行业/赛道】的竞品分析框架：

【分析对象】：我方：【描述】；竞对A：【描述】；竞对B：【描述】；竞对C：【描述】

【分析维度】（每个维度请给出数据收集方法和分析框架）：

1. 产品维度：核心功能对比矩阵；用户体验差异分析；产品迭代速度和方向

2. 运营维度：供给端（商家数量/质量/品类覆盖）；需求端（用户规模/活跃度/留存）；内容端（内容数量/质量/更新频率）；价格策略（定价区间/促销力度/补贴方式）

3. 数据维度：市场份额估算方法；增长趋势对比；用户口碑/NPS对比

4. 战略维度：SWOT分析；差异化竞争策略建议；潜在威胁和机会

5. 输出：竞品分析报告模板；数据收集Checklist；定期更新的节奏建议

请输出完整的分析框架。

💡 使用技巧：竞品分析不是一次性工作，建议建立持续的竞品监控机制。关键是要定义清楚"什么是真正需要关注的竞对动作"——不是所有变化都重要。

业务策略建议生成

基于数据分析结果生成可落地的策略建议（P0/P1/P2分级+优先级矩阵）

已验证

▼

📋 完整 Prompt

基于以下分析结果，请帮我生成可落地的业务策略建议：

【核心问题】：【描述要解决的业务问题，如："华东区酒店核销率持续下滑"】
【数据发现】：1.【发现1+数据支撑】2.【发现2+数据支撑】3.【发现3+数据支撑】
【约束条件】：【预算限制/时间限制/人力限制/技术限制】

请按以下框架输出策略建议：
1. 策略分级：P0（立即执行）=投入小见效快的"低垂果实"；P1（本周内启动）=需要一定资源但确定性高的策略；P2（本月规划）=需要更多验证和准备的长期策略

2. 每个策略包含：策略名称和一句话描述；目标指标和预期提升幅度；执行步骤（3-5步）；所需资源和协作方；风险点和应对预案；效果验证方法（如何判断策略是否生效）

3. 优先级排序矩阵：横轴=实施难度（低→高）；纵轴=预期影响（小→大）；将各策略标注在矩阵上

请输出完整的策略建议文档。

💡 使用技巧：分析师的最终价值是驱动业务决策。策略建议要具体——不要只说"提升核销率"，要说"通过A动作，预期提升核销率X个百分点，需要Y资源，Z周见效"。

经营分析会材料准备

月度/季度经营分析会的完整材料框架（开场→KPI→亮点→问题→规划）

已验证常用

▼

📋 完整 Prompt

我需要准备【月度/季度】经营分析会的材料。请帮我设计汇报框架：

【会议信息】：参会人：【如CEO/COO/各业务线VP】；时长：【30/60分钟】；业务线：【如抖音酒旅】

【数据准备】：核心KPI完成情况：【粘贴关键数据】；与目标的差距：【粘贴差距数据】；主要亮点：【粘贴亮点】；主要问题：【粘贴问题】

请帮我设计汇报结构：
1. 开场（2分钟）：一句话总结本月经营状况；最亮眼的1个数字+最需要关注的1个问题

2. KPI达成总览（5分钟）：核心指标仪表盘（完成率红黄绿灯）；与上月/去年同期的对比；差距最大的指标高亮

3. 亮点深挖（10分钟）：2-3个成功案例的详细拆解；成功的关键因素；可复用的经验和方法

4. 问题诊断（10分钟）：1-2个核心问题的根因分析；已经采取的措施和效果；需要管理层决策的事项

5. 下月规划（5分钟）：下月核心目标和关键举措；需要的资源和支持；风险提示

【风格要求】：每页PPT只讲一个核心观点；数据图表+一句话结论的格式；问题部分要有"我们已经做了什么"和"需要你们做什么"

请输出完整的汇报大纲和关键页面内容。

💡 使用技巧：经营分析会的核心原则：①结论先行 ②数据说话 ③问题不遮掩 ④建议要具体。最忌讳的是把分析会开成"数据播报会"——没人想听你念数字。

市场/行业分析报告框架

结构化行业研究框架（TAM/SAM/SOM+波特五力+趋势判断+数据来源指南）

实用

▼

📋 完整 Prompt

请帮我搭建一个【行业名称】的市场分析报告框架：

【研究目的】：【如：评估进入该市场的机会/了解市场规模和竞争格局/为年度规划提供输入】

【分析框架】（使用经典的行业分析方法）：

1. 市场规模与增长：TAM（总可寻址市场）/SAM（可服务市场）/SOM（可获取市场）；历史增速和未来预测；市场驱动因素和抑制因素

2. 竞争格局：波特五力模型分析；市场份额分布（CR3/CR5）；竞争态势矩阵

3. 用户分析：用户画像和分层；消费行为和决策路径；未满足的需求和痛点

4. 趋势判断：技术趋势；政策趋势；消费趋势

5. 机会与建议：市场进入策略建议；风险评估；下一步行动建议

【数据来源建议】：需要收集哪些数据？数据可以从哪里获取？如何交叉验证数据可靠性？

请输出完整的报告框架和数据收集指南。

💡 使用技巧：行业分析的关键是"三角验证"——用多个独立数据源交叉验证同一个结论。单一数据源的结论可靠性存疑。TAM/SAM/SOM框架是估算市场规模的经典方法。

数据驱动决策备忘录

写给管理层的简短决策建议备忘录（TL;DR+3个关键数据+风险评估）

实用

▼

📋 完整 Prompt

请帮我起草一份给管理层的决策备忘录：

【决策事项】：【如：是否将华东区酒店补贴预算增加30%？】
【背景】：【简要描述为什么需要做这个决策】
【数据分析结论】：【粘贴你的分析关键发现】
【可选方案】：方案A【描述+预计投入+预期产出+风险】；方案B【描述+预计投入+预期产出+风险】；方案C维持现状

【备忘录结构】（总字数控制在500字以内）：
1. TL;DR（一句话结论和建议）
2. Why Now（为什么现在必须做决策？紧迫性在哪？）
3. Key Data Points（支撑建议的3个最关键数据）
4. Recommendation（推荐方案+核心理由）
5. Risks & Mitigation（主要风险和应对措施）
6. Next Steps（如果批准，接下来3步是什么）

【风格要求】：极度精简，管理层时间宝贵；每个观点都要有数据支撑；明确标注"建议"vs"仅供参考"

请输出完整的决策备忘录。

💡 使用技巧：写给管理层的备忘录要遵循"电梯演讲"原则——如果只有30秒，最想让他们记住什么？把最重要的结论放在最前面，细节作为附录。

🚨异常检测与归因5 条指令

指标异动归因分析（全流程）

从发现异常到定位根因的完整分析链路（时间/地域/用户/品类四维下钻）

已验证核心常用

▼

📋 完整 Prompt

我发现【指标名称】发生了异常波动，请帮我做系统的归因分析：

【异常描述】：指标：【如GMV/订单量/核销率/转化率】；异常时间：【具体日期或时间段】；异常幅度：【如下降了15%/上升了20%】；正常范围：【该指标的正常波动范围】

【数据维度】（按以下维度逐层下钻）：

1. 时间维度拆解：异常是瞬时的还是持续的？是某个小时/某天的问题还是全时段的问题？与历史同期（上周/上月/去年同期）对比

2. 空间/地域维度拆解：是全局性的还是局部的？哪些城市/区域贡献了最多的变化？画城市维度的贡献度瀑布图

3. 用户维度拆解：是新用户的问题还是老用户的问题？是哪个用户层级（高频/中频/低频）变化最大？用户行为链路中哪个环节出了问题？

4. 供给/品类维度拆解：是哪个品类/商家类型的变化最大？是头部商家还是长尾商家的问题？

5. 外部因素排查：是否有节假日/天气/竞对动作等外部因素？是否有系统故障/数据上报异常？

【归因方法】：用加法/乘法分解量化各维度的贡献度；给出根因假设+验证方法；区分"主要原因"和"次要原因"

请输出完整的分析框架和代码。

💡 使用技巧：异动归因是数据分析师最高频的工作之一。核心方法论：从整体到局部逐层下钻，用"贡献度"而非"变化率"来量化——因为变化率大的维度不一定贡献大。

异常检测自动化系统

搭建自动监控+异常告警的完整方案（3-Sigma/IQR/Prophet/IsolationForest）

已验证

▼

📋 完整 Prompt

请帮我设计一套业务指标的自动化异常检测系统：

【监控指标】：【列出需要监控的核心KPI】
【数据粒度】：【如：日粒度/小时粒度】
【数据量级】：【如：覆盖200+城市×30个品类】

【检测方法】（请给出至少3种方法的对比）：
1. 统计方法：3-Sigma原则（均值±3倍标准差）；IQR方法（Q1-1.5×IQR, Q3+1.5×IQR）；同比/环比阈值（如：同比下降超过20%触发告警）

2. 时间序列方法：Prophet预测区间（实际值超出预测的置信区间）；STL分解后对残差分量做异常检测

3. 机器学习方法：Isolation Forest；LSTM Autoencoder（重构误差大=异常）

【告警策略】：分级告警：黄色（关注）/橙色（预警）/红色（紧急）；告警收敛：同一根因的多个指标异常合并为一条告警；告警抑制：已知原因（节假日/活动）的异常不重复告警

【输出要求】：完整的Python代码；异常检测结果的可视化（标注异常点）；告警消息模板（推送企业微信/钉钉/飞书）

请输出完整方案。

💡 使用技巧：异常检测的最大挑战不是"检测"而是"降噪"——如果每天收到50条告警，最后会变成"狼来了"。好的告警系统应该有告警收敛和分级机制。

贡献度分解（瀑布图归因）

量化各因素对指标变化的贡献大小（加法/乘法分解+连环替代法）

已验证常用

▼

📋 完整 Prompt

我需要将【总指标】的变化分解到各个子维度，量化每个维度的贡献：

【场景】：【如：GMV从1000万下降到850万，下降150万，是哪些因素造成的？】

请帮我用以下方法做贡献度分解：

1. 加法分解（适用于GMV=Σ各品类GMV）：计算每个品类的GMV变化量；计算每个品类对总变化的贡献度=该品类变化/总变化；画瀑布图(Waterfall Chart)展示

2. 乘法分解（适用于GMV=用户数×转化率×客单价）：用连环替代法（因素分析法）分解；公式：ΔGMV=Δ用户数×转化率₀×客单价₀+用户数₁×Δ转化率×客单价₀+用户数₁×转化率₁×Δ客单价；画堆叠柱状图展示各因素的贡献

3. 混合分解：先用加法分解到品类，再用乘法分解每个品类；输出完整的归因矩阵

【可视化要求】：瀑布图+堆叠贡献图；标注每个因素的贡献度和百分比

请输出完整的 Python 代码。

💡 使用技巧：贡献度分解是归因分析的核心工具。关键原则：先做加法分解（哪个子项变化大），再做乘法分解（子项内部哪个因素驱动）。连环替代法的顺序会影响结果，建议按业务逻辑确定替代顺序。

数据波动根因定位（Adtributor算法）

基于Adtributor算法的多维度根因定位（解释力+惊奇度综合评分）

已验证

▼

📋 完整 Prompt

请帮我用 Adtributor 算法（或类似的归因方法）进行多维度根因定位：

【问题】：某个指标的总体值发生了异常变化，需要定位到具体的维度值

【可用维度】：维度1：城市（200+取值）；维度2：品类（10个取值）；维度3：用户层级（5个取值）；维度4：渠道（8个取值）

【算法思路】：
1. 对每个维度，计算每个维度值的：解释力(Explanatory Power)=该维度值的变化量/该维度所有变化量之和；惊奇度(Surprise)=实际变化vs期望变化（基于历史占比）的偏离程度

2. 用JS散度或类似度量，衡量维度值分布的变化程度

3. 对每个维度值计算综合得分：Score=α×解释力+β×惊奇度；得分最高的Top N个维度值作为根因候选

4. 对候选根因做交叉验证：如果"北京"和"酒店"同时被定位为根因，检查"北京×酒店"交叉项的贡献

【输出要求】：每个维度的根因排序列表；根因的贡献度和置信度；根因之间的交叉效应分析；完整的Python实现代码

请输出完整方案和代码。

💡 使用技巧：Adtributor是微软发表的经典根因定位算法，核心思想是同时考虑"变化大不大"（解释力）和"是不是反常"（惊奇度）。适用于维度多、取值多的复杂业务场景。

异常事件影响量化

量化突发事件/系统故障/策略变更对业务的影响（反事实预测+对照组+DID）

实用

▼

📋 完整 Prompt

最近发生了一个【异常事件】，需要量化它对业务的影响：

【事件描述】：事件类型：【系统故障/策略变更/竞对动作/突发新闻/天气灾害】；发生时间：【精确到小时】；影响范围：【全局/部分城市/部分品类】；事件持续：【X小时/X天】

【量化方法】：
1. 反事实预测法：用事件前的数据训练预测模型；预测"如果没有事件"的指标值（反事实基线）；影响量=实际值-预测值；画实际值vs预测值的对比图

2. 对照组法（如果有未受影响的对照组）：用DID方法：影响=(处理组事后-事前)-(对照组事后-事前)；检验平行趋势假设

3. 同期对比法：与去年同期/上周同一天对比；扣除正常波动后的净影响

【输出要求】：影响量的点估计+区间估计；分维度（城市/品类/用户）的影响拆解；恢复时间预估（指标何时回归正常？）；事后复盘报告模板

请输出完整的分析代码和报告框架。

💡 使用技巧：事件影响量化的关键挑战是"反事实基线"的构建——我们永远无法知道如果事件没发生会怎样。多种方法交叉验证可以提高结论的可信度。

🧪AB 测试与实验设计5 条指令

AB测试完整设计与分析

从样本量计算到统计检验的完整AB测试流程（含多指标矫正+分群分析）

已验证核心常用

▼

📋 完整 Prompt

我需要设计和分析一个AB测试：

【实验信息】：实验目的：【如：验证新推荐算法是否能提升核销率】；实验指标（主指标）：【如核销率】；实验指标（辅助指标）：【如CTR/客单价/用户满意度】；预期提升：【如2个百分点（从35%到37%）】；对照组=当前策略；实验组=新策略

【实验设计】：
1. 样本量计算：显著性水平α=0.05；统计功效1-β=0.80；最小可检测效应(MDE)=【预期提升幅度】；基线转化率=【当前指标值】；计算每组所需的最小样本量

2. 分流设计：随机化单元：【用户ID/设备ID/城市】；分流比例：【如50:50】；SRM（样本比例偏差）检验

3. 实验周期：最小运行天数（考虑周周期效应）；新颖效应(Novelty Effect)的处理

【结果分析】：
4. 假设检验：主指标的假设检验（t检验/比例z检验）；计算p值+置信区间；效应量(Cohen's d/相对提升)

5. 多指标矫正：如果同时看多个指标，用Bonferroni或FDR矫正

6. 分群分析：不同用户群的效果是否一致？是否存在辛普森悖论？

7. 实验结论与建议：是否全量上线？理由是什么？如果不显著，是样本量不够还是真的没效果？

请输出完整的Python代码和报告模板。

💡 使用技巧：AB测试最常犯的错误：①样本量不够就下结论 ②看多个指标但不做多重比较矫正 ③实验周期太短忽略周周期效应。建议用在线计算器验证样本量。

AB测试样本量计算器

快速计算AB测试所需样本量和实验周期（灵敏度分析+MDE关系曲线）

已验证常用

▼

📋 完整 Prompt

请帮我计算AB测试所需的样本量：

【输入参数】：显著性水平α：【0.05】；统计功效1-β：【0.80或0.90】；基线转化率：【如10%】；预期提升（MDE）：【如+2pp（绝对提升）/+20%（相对提升）】；对照组和实验组的比例：【50:50/其他】

【计算内容】：
1. 每组所需的最小样本量
2. 如果日均流量为【X】，预计需要多少天
3. 不同MDE下的样本量需求表（灵敏度分析）
4. 不同α和β下的样本量变化

【可视化】：MDE vs 样本量的关系曲线；标注当前参数对应的样本量

请输出完整的Python代码（使用statsmodels或scipy）。

💡 使用技巧：样本量不够是AB测试失败的最常见原因。建议实验前一定先算样本量——很多时候你会发现"需要跑3周但我只有1周"，这时候要么降低MDE要求，要么不做实验。

准实验设计（无随机化时）

无法随机分流时的因果推断替代方案（DID/PSM/合成控制法/RDD/工具变量）

已验证

▼

📋 完整 Prompt

我无法做随机化AB测试（原因：【如：策略已全量上线/无法分流/伦理限制】），需要用准实验方法评估策略效果：

【场景】：【描述策略和评估需求】

请帮我选择并实施合适的准实验方法：

1. DID（双重差分）：适用场景=有自然形成的处理组和对照组；前提=平行趋势假设；实现步骤和代码

2. PSM（倾向性得分匹配）：适用场景=处理组和对照组在可观测特征上有差异；步骤=估计倾向性得分→匹配→平衡性检验→估计处理效应；匹配方法=最近邻/核匹配/分层匹配

3. 合成控制法(SCM)：适用场景=只有一个处理单元，用其他单元的加权组合构造"合成对照组"；适用于城市级/国家级的政策评估

4. 断点回归(RDD)：适用场景=策略基于某个连续变量的阈值（如评分>4.5的商家享受优惠）；前提=在阈值附近个体近似随机

5. 工具变量(IV)：适用场景=存在内生性问题时

请对比各方法的适用条件和局限，并输出Python实现代码。

💡 使用技巧：准实验方法的核心挑战是"选择偏差"——处理组和对照组本质上不同。DID和PSM是最常用的两种方法。务必做平行趋势检验和平衡性检验，否则结论不可信。

AB测试结果可视化

专业的AB测试结果图表（指标对比+累积效应+分布对比+分群森林图）

已验证

▼

📋 完整 Prompt

我的AB测试结果如下，请帮我生成专业的可视化图表：

【实验数据】：对照组：【样本量、均值/比例、标准差】；实验组：【样本量、均值/比例、标准差】；p值：【】；置信区间：【】

请生成以下图表（适合放入实验报告）：

1. 指标对比图：并列柱状图+误差线（95%CI）；标注p值和显著性

2. 累积效应图：X轴=实验天数；Y轴=累积的组间差异；展示效应随时间如何稳定

3. 分布对比图：重叠直方图/KDE（对照组vs实验组）；如果是比例指标，展示比例对比

4. 分群效应森林图：各用户群的效应量和置信区间；标注整体效应

5. 实验健康度检查：SRM检验结果；各天的样本量分布

请输出完整的Python代码（使用plotly）。

💡 使用技巧：AB测试报告的核心三张图：①指标对比图（有没有效果）②累积效应图（效果稳不稳定）③分群森林图（对谁有效）。这三张图讲清楚了，实验结论就讲清楚了。

实验平台/指标体系设计

从零搭建AB实验平台的指标体系（OEC+护栏指标+驱动指标+看板设计）

实用

▼

📋 完整 Prompt

我需要为【业务线】设计一套AB实验的指标体系。请帮我：

【业务背景】：【如：抖音酒旅推荐策略优化】

【指标分层设计】：

1. OEC（Overall Evaluation Criterion，核心评估指标）：1-2个最核心的指标，直接衡量实验目标；如：核销率、人均GMV；定义精确的计算口径

2. 护栏指标（Guardrail Metrics）：不能显著恶化的指标；如：用户满意度、退款率、页面加载时间；设定"可接受恶化阈值"

3. 驱动指标（Driver Metrics）：解释OEC变化的中间指标；如：CTR→详情页转化率→下单转化率→核销率；帮助理解"为什么OEC变了"

4. 质量指标（Data Quality Metrics）：SRM检验（样本比例偏差）；数据缺失率；异常值比例

【指标看板设计】：实验总览页=OEC+护栏指标的红绿灯；指标详情页=每个指标的时序图和置信区间；分群分析页=各分群的效应对比

请输出完整的指标体系文档和看板设计。

💡 使用技巧：好的实验指标体系=1-2个OEC+3-5个护栏指标+5-10个驱动指标。OEC太多会导致多重比较问题；护栏指标太少会导致"按下葫芦浮起瓢"。